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微服 务 是 一 种 分 布 式 系统 解决 方案 ， 推 动 细 粒 度 服 务 的 使 用 ， 这 些 服务 协同 工作 ， 且 每 
服务 都 有 自己 的 生命 周期 。 因 为 微服 务 主要 围绕 业务 领域 建 模 ， 有 
架构 引发 的 很 多 问题 。 微 服务 也 整合 了 过 去 十 年 来 的 新 概念 和 技术 ， 因 此 得 以 避 开 许多 面 
向 服务 的 架构 中 的 陷阱 。 


本 书包 含 了 业界 使 用 微服 务 的 很 多 案例 ， 包 括 Netflix、Amazon、Gilt 和 REA 等。 这些 组 
织 都 发 现 这 种 架构 有 一 个 很 大 的 好 处 ， 就 是 能 够 给 予 他 们 的 团队 更 多 的 自治 。 


谁 该 读 这 本 书 

细 粒 度 的 微服 务 架 ! 构 包含 了 很 多 方面 的 内 容 ， 所 以 本 书 的 范围 很 广 ， 适 用 于 对 系统 的 设 
计 、 开 发 、 部 署 、 测试 和 运 维 品类 趣 的 人 们 。 对 于 那些 已 经 走 上 更 细 粒 度 架构 之 路 的 人 ， 
无 论 是 开发 新 应 用 ， 还 是 拆 分 现 有 的 单 块 系统 ， 都 会 因 书 里 很 多 的 实用 建议 而 受益 。 对 于 
ee Pa 这 本 书 也 可 以 帮助 你 确定 微服 务 是 否 适合 你 。 


为 什么 写 这 本 书 


在 多 年 前 帮助 人 们 更 快 地 交付 软件 时 ， 我 就 已 经 开始 思考 系统 架构 相关 的 话题 了 。 我 意识 
到 ， 虽 然 基 础 设施 自动 化 、 测 试 和 持续 交付 等 技术 很 有 用 ， 但 如 果 系 统 本 身 的 设计 不 支持 
快速 变化 ， 那 所 能 做 的 事情 将 会 受到 很 大 限制 。 


与 此 同时 ， 许 多 组 织 尝 试 使 用 更 细 粒 度 的 架构 来 实现 更 快 的 交付 ;， 结果 发 现 其 带 来 了 更 好 
的 可 扩展 性 ， 增 强 了 团队 的 自治 ， 或 使 团队 更 容易 接受 新 技术 。 我 自己 的 经 历 ， 以 及 我 在 
ThoughtWorks 和 其 他 公司 的 同事 的 经 历 ， 都 强化 了 这 样 的 事实 : 使 用 大 量 的 独立 生命 周期 
的 服务 ， 会 引发 很 多 令 人 头痛 的 问题 。 在 某 种 程度 上 ， 你 可 以 把 这 本 书 作为 一 个 一 站 式 商 
店 ， 其 包含 微服 务 所 涉及 的 各 种 主题 ， 以 帮助 你 来 理解 微服 务 。 要 是 以 前 就 知道 这 些 概念 
的 话 ， 我 将 受益 菲 浅 ! 
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当今 的 微服 务 

微服 务 是 一 个 快速 发 展 的 主题 。 尽 管 它 不 是 一 个 新 的 想法 (虽然 这 个 词 本 身 是 ) ， 但 世界 
各 地 的 人 们 所 获取 的 经 验 以 及 新 技术 的 出 现 正 在 对 如 何 使 用 它 产 生 深远 的 影响 。 因 为 其 变 
化 的 节奏 很 快 ， 所 以 这 本 书 更 加 关注 理念 ， 而 不 是 特定 技术 ， 因 为 实现 细节 变化 的 速度 总 
是 比 它们 背后 的 理念 要 快 得 多 。 而 且 ， 我 完全 相信 几 年 后 我 们 会 对 微服 务 适用 的 场景 了 解 
更 多 ， 也 会 知道 如 何 更 好 地 使 用 它 。 


所 以 ， 虽 然 在 本 书 中 我 已 经 尽 最 大 的 努力 来 提炼 出 这 个 主题 的 本 质 ， 但 如 果 你 对 这 个 话题 
感 兴趣 的 话 ， 还 是 要 做 好 进行 若干 年 持续 学 习 的 准备 ， 来 保证 你 处 在 这 个 领域 的 前 沿 ! 


本 书 结构 


这 本 书 主要 基于 主题 来 组 织 ， 因 此 你 可 以 直接 翻阅 你 最 感 兴 趣 的 主题 。 我 在 前 面 几 童 中 尽 
量 列 出 了 所 有 的 术语 和 想法 ， 我 相信 即使 自 认 在 微服 务 领 域 已 经 相当 有 经 验 的 人 ， 也 会 在 
这 几 音 中 找到 感 兴趣 的 话题 。 我 建议 大 家 看 看 第 2 章 ， 其 中 涉及 的 话题 很 广 ， 并 提供 了 一 
些 框架 ， 来 帮助 你 更 加 深入 地 学 习 后 面 的 主题 。 


对 微服 务 不 太 了 解 的 人 ， 可 以 按照 我 的 章节 安排 从 头 读 到 尾 。 
以 下 概述 了 本 书 所 涵盖 的 内 容 。 


第 1 章 ， 微 服务 
首先 介绍 微服 务 的 基本 概念 ， 包 括 微服 务 的 主要 优点 以 及 一 些 缺 点 。 


要 考虑 的 。 


。 第 3 章 ， 如 何 建 模 服务 
在 这 一 章 我 们 使 用 领域 驱动 设计 来 定义 微服 务 的 边界 。 


。 第 4 章 ， 集 成 
这 一 章 开始 深入 具体 的 技术 ， 讨 论 什 么 样 的 服务 集成 技术 对 我 们 帮助 最 大 。 我 们 还 将 
深入 研究 用 户 界面 ， 以 及 如 何 集成 遗留 产品 和 COTS (Commercial Off-The-Shelf， 现 成 
的 商业 软件 ) 产品 这 个 主题 。 

。 第 5 章 ， 分 解 单 块 系统 
很 多 人 对 于 如 何 把 一 个 大 的 、 难 以 变化 的 单 块 系统 分 解 成 微服 务 很 感 兴 趣 ， 而 这 正 是 
我 们 将 在 这 一 章 详细 介绍 的 内 容 。 





第 6 章 ， 部 署 
尽管 这 本 书 讲述 的 主要 是 微服 务 的 理论 ， 但 书 中 的 几 个 主题 还 是 会 受到 最 新 技术 的 影 
响 ， 部 署 就 是 其 中 之 一 ， 我 们 在 这 一 章 会 探讨 这 方面 的 内 容 。 


第 7 章 ， 测 试 
本 章 会 深入 测试 这 个 主题 ， 测 试 在 部 署 多 个 分 散 的 服务 时 很 重要 。 特 别 需要 注意 的 是 ， 
消费 者 驱动 的 契约 测试 在 确保 软件 质量 方面 能 够 起 到 什么 样 的 作用 。 


第 8 章 ， 监 控 
在 部 署 到 生产 环境 之 前 的 测试 并 不 能 完全 保证 我 们 上 线 后 设 有 问题 。 这 一 章 探讨 了 细 
粒度 的 系统 该 如 何 监控 ， 以 及 如 何 应 对 分 布 式 系统 的 复杂 性 。 


第 9 章 ， 安 全 
这 一 章 将 会 研究 微服 务 的 安全 ， 考 虑 如 何 处 理 用 户 对 服务 及 服务 间 的 身份 验证 和 授权 。 
在 计算 领域 ， 安 全 是 一 个 非常 重要 的 话题 ， 而 且 很 容易 被 忽略 。 尽 管 我 不 是 安全 专家 ， 
但 我 希望 这 一 章 至 少 能 帮助 你 了 解 在 构建 系统 ， 尤 其 是 微服 务 系统 时 ， 需 要 考虑 的 一 
些 内 容 。 

第 10 章 ， 康 威 定律 和 系统 设计 

一 童 的 重点 是 组 织 结构 和 系统 设计 的 相互 作用 。 许 多 组 织 已 经 意识 到 ， 两 者 不 匹配 
会 导致 很 多 问题 。 我 们 将 试图 弄 清楚 这 一 困境 的 真相 ， 并 考虑 一 些 不 同 的 方法 将 系统 
设计 与 你 的 团队 结构 相 匹 配 。 


1 章 ， 规 模 化 微服 务 
一 章 我 们 将 开始 了 解 规模 化 微服 务 所 面临 的 问题 ， 以 便 处 理 在 有 大 量 服 务 时 失败 概 
中 大 及 流量 过 载 的 问题 。 


第 12 章 ， 总 结 
最 后 一 章 试图 分 析 微 服务 与 其 他 架构 有 什么 本 质 上 的 不 同 。 我 列 出 了 微服 务 的 七 个 原 
则 ， 并 总 结 了 本 书 的 要 点 。 


排版 约定 


本 书 使 用 了 下 列 排版 约定 。 
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楷体 
表示 新 术语 。 
等 宽 字 体 (constant width) 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 国 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 语 
句 和 关键 字 等 。 





| 前 言 


。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


。 斜体 等 宽 字 体 (constant width bold) 
表示 应 当 被 用 户 自 定 义 的 值 或 上 下 文 决定 的 值 所 替换 的 文本 。 


Safari? Books Online 


ee 人 Safari Books Online (http:Wwww.safaribooksonline.com) 是 应 运 
Safa 时。 而 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 
Books Online 技术 和 商务 作家 的 专业 作品 。 技 术 专 家 、 软 件 开 发 人 员 、Web 
设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 习 和 认证 培训 时 ， 都 将 
Safari Books Online 视 作 获取 资料 的 首选 渠道 。 
对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media、Prentice 
Hall Professional、Addison-Wesley Professional、 Microsoft Press、Sams、Que、Peachpit 
Press、 Focal Press、 Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 
Redbooks、 Packt、 Adobe Press、 FT Press、Apress、Manning、New Riders、McGraw-Hill、 
Jones & Bartlett、Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 


O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
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第 1 章 


微服 务 





多 年 以 来 ,我们 一 直 在 寻找 更 好 的 方法 来 构建 应 用 系统 。 我 们 一 直 在 学 习 已 有 的 技术 ， 尝 
试 新 技术 ， 也 目睹 过 不 少 新 兴 技 术 公 司 使 用 不 同 的 方式 来 构建 I 应 用 系统 ， 从 而 提高 了 
客户 满意 度 和 开发 效率 。 


Eric Evans 的 《领域 驱动 设计 》 一 书 帮助 我 们 理解 了 用 代码 呈现 真实 世界 的 重要 性 ， 并 且 
告诉 我 们 如 何 更 好 地 进行 建 模 。 持 续 交 付 理论 告诉 我 们 如 何 更 有 效 及 更 高 效 地 发 布 软件 
产品 ， 并 指出 保持 每 次 提交 均 可 发 布 的 重要 性 。 基 于 对 Web 的 理解 ， 我 们 寻找 到 了 机 器 
与 机 器 交互 的 更 好 方式 。Alistair Cockburn 的 六 边 形 架 构 理论 (http://alistair.cockburn.us/ 
Hexagonal+architecture) 把 我 们 从 分 层 架 构 中 拯救 出 来 ， 从 而 能 够 更 好 地 体现 业务 逻辑 。 
借助 虚拟 化 平台 ， 我 们 能 够 按 需 创建 机 器 并 且 调 整 其 大 小 ， 借 助 基础 设施 的 自动 化 我 们 也 
很 容易 从 一 台 机 器 扩展 到 多 台 。 在 类 似 Amazon 和 Google 这 样 成 功 的 大 型 组 织 中 ， 有 很 多 
小 团队 ， 他 们 各 自 对 某 个 服务 的 全 生命 周期 负责 。 最 近 ，Netflix 分 享 了 构建 大 型 反 脆弱 系 
统 的 经 验 ， 而 这 种 构建 方式 在 10 年 前 是 很 难 想象 的 。 


随 着 领域 驱动 设计 、 持 续 交 付 、 按 需 虚 拟 化 、 基 础 设施 自动 化 、 小 型 自治 团队 、 大 型 集群 
系统 这 些 实践 的 流行 ， 微 服务 也 应 运 而 生 。 它 并 不 是 被 发 明 出 来 的 ， 而 是 从 现实 世界 中 总 
结 出 来 的 一 种 趋势 或 模式 。 但 是 没有 前 面 提 及 的 这 些 概念 ， 微 服务 也 很 难 出 现 。 在 本 书 接 
下 来 的 内 容 中 ， 我 会 尝试 把 这 些 概念 整合 起 来 ， 从 而 给 出 一 个 涉及 如 何 构 建 、 管 理 和 演化 
微服 务 的 全 景 图 。 

很 多 组 织 发 现 细 粒 度 的 微服 务 架构 可 以 帮助 他 们 更 快 地 交付 软件 ， 并 且 有 更 多 机 会 尝 i 


新 技术 。 微 服务 在 技术 决策 上 给 了 我 们 极 大 的 自由 度 ， 使 我 们 能 够 更 快 地 响应 不 可 避免 
的 变化 。 


1.1 什么 是 微服 务 


微服 务 就 是 一 些 协同 工作 的 小 而 自治 的 服务 。 让 我 们 详细 地 分 析 一 下 微服 务 的 定义 ， 看 看 
它 有 什么 不 同 之 处 。 


1.1.1 很 小 ， 专 注 于 做 好 一 件 事 

随 着 新 功能 的 增加 ， 代 码 库 会 越 变 越 大 。 时 间 久 了 代码 库 会 非常 庞大 ， 以 至 于 想 要 知道 该 
在 什么 地 方 做 修改 都 很 困难 。 尽 管 我 们 想 在 巨大 的 代码 库 中 做 到 清晰 地 模块 化 ， 但 事实 上 
这 些 模块 之 间 的 界限 很 难 维护 。 相 似 的 功能 代码 开始 在 代码 库 中 随处 可 见 ， 使 得 修复 bug 
或 实现 更 加 困难 。 


在 一 个 单 块 系统 内 ， 通 常会 创建 一 些 抽 象 层 或 者 模块 来 保证 代码 的 内 聚 性 ， 从 而 避免 上 
述 问 题 。 内 聚 性 是 指 将 相关 代码 放 在 一 起 ， 在 考虑 使 用 微服 务 的 时 候 ， 内 聚 性 这 一 概念 
很 重要 。Robert C. Martin 有 一 个 对 单一 职责 原则 (Single Responsibility Principle，http:// 
programmer.97things.oreilly.com/wikiindex.php/The_Single_Responsibility_Principle) 的 论述 : 
“把 因 相同 原因 而 变化 的 东西 聚合 到 一 起 ， 而 把 因 不 同 原因 而 变化 的 东西 分 离开 来 。” 该 论 
述 很 好 地 强调 了 内 聚 性 这 一 概念 。 


微服 务 将 这 个 理念 应 用 在 独立 的 服务 上 。 根 据 业 务 的 边界 来 确定 服务 的 边界 ， 这 样 就 很 容 
易 确定 某 个 功能 代码 应 该 放 在 哪里 。 而 且 由 于 该 服务 专注 于 某 个 边界 之 内 ， 因 此 可 以 很 好 
地 避免 由 于 代码 库 过 大 衍生 出 的 很 多 相关 问题 。 


经 常 有 人 问 我 : 代码 库 多 小 才 算 小 ? 使 用 代码 行 数 来 衡量 是 有 问题 的 ， 因 为 有 些 语言 的 表 
达 力 更 好 ， 能 够 使 用 很 少 的 代码 完成 相同 的 功能 。 还 有 一 个 需要 考虑 的 因素 是 ， 一 个 服务 
的 代码 可 能 有 多 个 依赖 项 ， 而 每 个 依赖 项 又 会 包含 很 多 代码 。 此 外 ， 一 个 不 可 避免 的 事 
情 是 你 的 领域 对 象 本 身 很 复杂 ， 所 以 需要 更 多 的 代码 。 澳 大 利 亚 RealEstate.com.au 的 Jon 
Eaves 认为 ， 一 个 微服 务 应 该 可 以 在 两 周 内 完全 重 写 ， 这 个 经 验 法 则 在 他 所 处 的 特定 上 下 
文中 是 有 效 的 。 


我 可 以 给 出 的 另 一 个 比较 老 套 的 答案 是 : 足够 小 即 可 ， 不 要 过 小 。 当 我 在 会 议 上 做 演讲 的 
时 候 ， 几 乎 每 次 都 会 问 听 众 : 谁 认为 自己 的 系统 太 大 了 ， 想 把 它 拆 成 更 小 的 。 几 乎 所 有 人 
都 会 举 手 。 看 起 来 大 家 都 能 够 意识 到 什么 是 “过 大 ”， 那 么 换 名 话说， 如 果 你 不 再 感觉 你 
的 代码 库 过 大 ， 可 能 它 就 足够 小 了 。 


另外 一 个 帮助 你 回答 服务 应 该 多 小 的 关键 因素 是 ， 该 服务 是 否 能 够 很 好 地 与 团队 结构 相 匹 
配 。 如 果 代 码 库 过 大 ， 一 个 小 团队 无 法 正常 维护 ， 那 么 很 显然 应 该 将 其 拆 成 小 的 。 在 后 面 
关于 组 织 匹配 度 的 部 分 会 对 该 话题 做 更 多 讨论 。 


当 考 虑 多 小 才 足 够 小 的 时 候 ， 我 会 考虑 这 些 因素 : 服务 越 小 ， 微 服务 架构 的 优点 和 缺点 也 
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就 越 明 显 。 使 用 的 服务 越 小 ， 独 立 性 带 来 的 好 处 就 越 多 。 但 是 管理 大 量 服务 也 会 越 复杂 ， 
本 书 的 剩余 部 分 会 详细 讨论 这 一 复杂 性 。 如 果 你 能 够 更 好 地 处 理 这 一 复杂 性 ， 那 么 就 可 以 
尽情 地 使 用 较 小 的 服务 了 。 


1.1.2 自治 性 
一 个 微服 务 就 是 一 个 独立 的 实体 。 它 可 以 独立 地 部 署 在 PAAS (Platform As A Service， 平 
台 即 服务 ) 上 ， 也 可 以 作为 一 个 操作 系统 进程 存在 。 我 们 要 尽量 避免 把 多 个 服务 部 署 到 同 
一 台 机 器 上 ， 尽 管 现 如 今 机 器 的 概念 已 经 非常 模糊 了 ! 后 面 会 讨论 到 ， 尽 管 这 种 隔离 性 会 
引发 一 些 代价 ， 但 它 能 够 大 大 简化 分 布 式 系统 的 构建 ， 而 且 有 很 多 新 技术 可 以 帮助 解决 这 
种 部 署 模 型 带 来 的 问题 。 


服务 之 间 均 通过 网 络 调 用 进行 通信 ， 从 而 加 强 了 服务 之 间 的 隔离 性 ， 避 免 紧 耦合 。 


这 些 服务 应 该 可 以 彼此 间 独 立 进行 修改 ， 并 且 某 一 个 服务 的 部 署 不 应 该 引起 该 服务 消费 方 
的 变动 。 对 于 一 个 服务 来 说 ， 我 们 需要 考虑 的 是 什么 应 该 暴露 ， 什 么 应 该 隐藏 。 如 采 暴 露 
得 过 多 ， 那 么 服务 销 费 方 会 与 该 服务 的 内 部 实现 产生 耦合 。 这 会 使 得 服务 和 消费 方 之 间 产 
生 额 外 的 协调 工作 ， 从 而 降低 服务 的 自治 性 。 


服务 会 暴露 出 API (Application Programming Interface， 应 用 编程 接口 ) ， 然 后 服务 之 间 通 
过 这 些 API 进行 通信 。API 的 实现 技术 应 该 避免 与 消费 方 而 合 ， 这 就 意味 着 应 该 选择 与 具 
体 技术 不 相关 的 API 实现 方式 ， 以 保证 技术 的 选择 不 被 限制 。 本 书后 面 会 讨论 选择 好 的 解 
耦 性 API 的 重要 性 。 


如 果 系 统 没有 很 好 地 解 看 ， 那 么 一 旦 出 现 问 题 ， 所 有 的 功能 都 将 不 可 用 。 有 一 个 黄金 法 则 
是 : 你 是 否 能 够 修改 一 个 服务 并 对 其 进行 部 署 ， 而 不 影响 其 他 任何 服务 ?如果 答案 是 否定 
的 ， 那 么 本 书 剩余 部 分 讨论 的 那些 好 处 对 你 来 说 就 没什么 意义 了 。 


为 了 达到 解 耦 的 目的 ， 你 需要 正确 地 建 模 服 务 和 API。 后 面 会 针对 这 个 话题 做 更 多 讨论 。 


1.2 ”主要 好 处 


微服 务 有 很 多 不 同 的 好 处 ， 其 中 很 多 好 处 也 适用 于 任何 一 个 分 布 式 系统 。 但 相对 于 分 布 式 
系统 或 者 面向 服务 的 架构 而 言 ， 微 服务 要 更 胜 一 筹 ， 它 会 把 这 些 好 处 推 向 极致 。 


1.2.1 技术 异 构 性 
在 一 个 由 多 个 服务 相互 协作 的 系统 中 ， 可 以 在 不 同 的 服务 中 使 用 最 适合 该 服务 的 技术 。 尝 
试 使 用 一 种 适合 所 有 场景 的 标准 化 技术 ， 会 使 得 所 有 的 场景 都 无 法 得 到 很 好 的 支持 。 


如 果 系 统 中 的 一 部 分 需要 做 性 能 提升 ， 可 以 使 用 性 能 更 好 的 技术 栈 重 新 构建 该 部 分 。 系 统 
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中 的 不 同 部 分 也 可 使 用 不 同 的 数据 存储 技术 ， 比 如 对 于 社交 网 络 来 说 ， 图 数据 库 能 够 更 好 
地 处 理 用 户 之 间 的 交互 操作 ， 但 是 对 于 用 户 发 布 的 帖子 而 言 ， 文 档 数据 库 可 能 是 一 个 更 好 
的 选择 。 图 1-1 展示 了 该 异 构架 构 。 
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图 1-1: 微服 务 帮助 你 轻松 地 采用 不 同 的 技术 


微服 务 可 以 帮助 我 们 更 快 地 采用 新 技术 ， 并 且 理 解 这 些 新 技术 的 好 处 。 尝 试 新 技术 通常 伴 
随 着 风险 ， 这 使 得 很 多 人 望而却步 。 尤 其 是 对 于 单 块 系统 而 言 ， 采 用 一 个 新 的 语言 、 数 据 
库 或 者 框架 都 会 对 整个 系统 产生 巨大 的 影响 。 对 于 微服 务 系统 而 言 ， 总 会 存在 一 些 地 方 让 
我 可 以 尝试 新 技术 。 你 可 以 选择 一 个 风险 最 小 的 服务 来 采用 新 技术 ， 即 便 出 现 问题 也 容易 
处 理 。 这 种 可 以 快速 采用 新 技术 的 能 力 对 很 多 组 织 而 言 是 非常 有 价值 的 。 


不 过 为 了 同时 使 用 多 种 技术 ， 也 需要 付出 一 些 代 价 。 有 些 组 织 会 限制 语言 的 选择 ， 比 如 
Netflix 和 Twitter 选用 的 技术 大 多 基于 JVM (Java Virtual Machine，Java 虚拟 机 ) ， 因 为 他 
们 非常 了 解 该 平台 的 稳定 性 和 性 能 。 他 们 还 在 JVM 上 开发 了 一 些 库 和 工具 ， 使 得 大 规模 
运 维 变 得 更 加 容易 ， 但 这 同时 也 使 得 我 们 更 难以 采用 Java 外 的 其 他 技术 来 编写 服务 和 客户 
端 。 尽 管 如 此 ，Twitter 和 Netflix 也 并 非 只 使 用 一 种 技术 栈 。 另 一 个 会 影响 多 技术 栈 选 用 
的 因素 是 服务 的 大 小 ， 如 果 你 真 的 可 以 在 两 周 内 重 写 一 个 服务 ， 那 么 尝试 使 用 新 技术 的 风 
险 就 降低 了 不 少 。 


贯穿 本 书 的 一 个 问题 是 ， 微 服务 如 何 寻 找平 衡 。 第 2 章 我 们 会 讨论 如 何 做 技术 选择 ， 其 中 
主要 专注 于 演进 式 架构 ， 第 4 章 主 要 关注 集成 ， 你 将 学 会 如 何 避 免 服 务 之 间 的 过 度 耦 合 ， 
从 而 可 以 使 其 彼此 独立 地 进行 技术 演化 。 


1.2.2 弹性 

弹性 工程 学 的 一 个 关键 概念 是 舱 壁 。 如 果 系 统 中 的 一 个 组 件 不 可 用 了 ， 但 并 没有 导致 级 联 
故障 ， 那 么 系统 的 其 他 部 分 还 可 以 正常 运行 。 服 务 边界 就 是 一 个 很 显然 的 舱 壁 。 在 单 块 系 
统 中 ， 如 果 服 务 不 可 用 ， 那 么 所 有 的 功能 都 会 不 可 用 。 对 于 单 块 服务 的 系统 而 言 ， 可 以 通 
过 将 同样 的 实例 运行 在 不 同 的 机 器 上 来 降低 功能 完全 不 可 用 的 概率 ， 然 而 微服 务 系统 本 身 
就 能 够 很 好 地 处 理 服务 不 可 用 和 功能 降级 问题 。 





微服 务 系统 可 以 改进 弹性 ， 但 你 还 是 需要 谨慎 对 待 ， 因 为 一 旦 使 用 了 分 布 式 系 统 ， 网 络 就 
会 是 个 问题 。 不 但 网 络 会 是 个 问题 ， 机 器 也 如 此 ， 因 此 我 们 需要 了 解 出 现 问题 时 应 该 如 何 
对 用 户 进行 展示 。 


第 11 章 会 就 弹性 处 理 和 对 故障 模式 的 处 理 做 更 多 讨论 。 


1.2.3 扩展 


庞大 的 单 块 服务 只 能 作为 一 个 整体 进行 扩展 。 即 使 系统 中 只 有 一 小 部 分 存在 性 能 问题 ， 
也 需要 对 整个 服务 进行 扩展 。 如 果 使 用 较 小 的 多 个 服务 ， 则 可 以 只 对 需要 扩展 的 服务 进 
行 扩展 ， 这 样 就 可 以 把 那些 不 需要 扩展 的 服务 运行 在 更 小 的 、 性 能 稍 差 的 硬件 上 ， 如 图 
1-2 所 示 。 
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图 1-2: 可 以 针对 那些 需要 扩展 的 微服 务 进行 扩展 


Gilt 是 一 个 在 线 时 尚 零 售 商 ， 他 们 就 是 因为 这 个 原因 而 采用 了 微服 务 。2007 年 ， 他 们 还 是 
一 个 单一 的 Rails 应 用 ，2009 年 ，Gilt 的 系统 无 法 解决 其 负载 。 通 过 将 系统 的 核心 部 分 抽 
离 出 来 之 后 ，Gilt 在 流量 处 理 方面 有 了 大 大 的 改进 。 如 今 Gilt 有 450 多 个 微服 务 ， 每 一 个 
服务 都 分 别 运 行 在 多 台 机 器 上 。 


在 使 用 类 似 Amazon 云 服务 之 类 的 平台 时 ， 也 可 以 只 对 需要 的 服务 进行 扩展 ， 从 而 节省 成 
本 。 通 过 架构 来 节省 成 本 的 情形 还 真是 不 多 见 。 


1.2.4 简化 部 署 

在 有 几 百 万 代码 行 的 单 块 应 用 程序 中 ， 即 使 只 修改 了 一 行 代码 ， 也 需要 重新 部 署 整个 应 用 
程序 才能 够 发 布 该 变更 。 这 种 部 署 的 影响 很 大 、 风 险 很 高 ， 因 此 相关 干系 人 不 敢 轻易 做 部 
署 。 于 是 在 实际 操作 中 ， 部 署 的 频率 就 会 变 得 很 低 。 这 意味 着 在 两 次 发 布 之 间 我 们 对 软件 
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做 了 很 多 功能 增强 ， 但 直到 最 后 一 刻 才 把 这 些 大 量 的 变更 一 次 性 发 布 到 生产 环境 中 。 这 
时 ， 另 外 一 个 问题 就 显现 出 来 了 : 两 次 发 布 之 间 的 差异 越 大 ， 出 错 的 可 能 性 就 更 大 ! 


在 微服 务 架构 中 ， 各 个 服务 的 部 署 是 独立 的 ， 这 样 就 可 以 更 快 地 对 特定 部 分 的 代码 进行 部 
车 。 如 果真 的 出 了 问题 ， 也 只 会 影响 一 个 服务 ， 并 且 容 易 快 速 回 滚 ， 这 也 意味 着 客户 可 以 
更 快 地 使 用 我 们 开发 的 新 功能 。Amazon 和 Netflix 等 组 织 采 用 这 种 架构 主要 就 是 基于 上 述 
考虑 。 这 种 架构 很 好 地 清除 了 软件 发 布 过 程 中 的 种 种 障碍 。 


微服 务 部 署 领 域 的 技术 在 过 去 儿 年 时 间 里 发 生 了 巨大 的 变化 ， 第 6 章 会 对 该 话题 做 更 深入 
的 讨论 。 


1.2.5 与 组 织 结 构 相 匹配 
我 们 经 历 过 太 多 由 于 团队 和 代码 库 过 大 引起 问题 的 情况 。 当 团队 是 分 布 式 的 时 候 ， 问 题 会 
更 明显 。 我 们 也 知道 在 小 型 代码 库 上 工作 的 小 团队 更 加 高 效 。 


微服 务 架构 可 以 很 好 地 将 架构 与 组 织 结构 相 匹配 ， 避 免 出 现 过 大 的 代码 库 ， 从 而 获得 理想 
的 团队 大 小 及 生产 力 。 服 务 的 所 有 权 也 可 以 在 团队 之 间 迁 移 ， 从 而 避免 异地 团队 的 出 现 。 
在 第 10 章 讲 解 康 威 定律 时 会 对 该 话题 做 更 深入 的 讨论 。 


1.2.6 可 组 合 性 

分 布 式 系统 和 面向 服务 架构 声称 的 主要 好 处 是 易于 重用 已 有 功能 。 而 在 微服 务 架 构 中 ， 根 
据 不 同 的 目的 ， 人 们 可 以 通过 不 同 的 方式 使 用 同一 个 功能 ， 在 考虑 客户 如 何 使 用 该 软件 时 
这 一 点 尤其 重要 。 单 纯 考 虑 桌面 网 站 或 者 移动 应 用 程序 的 时 代 已 经 过 去 了。 现在 我 们 需要 
考虑 的 应 用 程序 种 类 包括 Web、 原 生 应 用 、 移 动 端 Web、 平 板 应 用 及 可 穿戴 设备 等 ， 针 对 
每 一 种 都 应 该 考虑 如 何 对 已 有 功能 进行 组 合 来 实现 这 些 应 用 。 现 在 很 多 组 织 都 在 做 整体 考 
虐 ， 拓 展 他 们 与 客户 交互 的 渠道 ， 同 时 也 需要 相应 地 调整 架构 来 辅助 这 种 变化 的 发 生 。 


在 微服 务 架构 中 ， 系 统 会 开放 很 多 接 颖 供 外 部 使 用 。 当 情况 发 生 改 变 时 ， 可 以 使 用 不 同 的 
方式 构建 应 用 ， 而 整体 化 应 用 程序 只 能 提供 一 个 非常 粗 粒 度 的 接 颖 供 外 部 使 用 。 如 果 想 要 
得 到 更 有 用 的 细 化 信息 ， 你 需要 使 用 构 头 手 开 它 ! 第 5 章 会 讨论 如 何 将 已 有 的 单 块 应 用 程 
序 分 解 成 为 多 个 微服 务 ， 并 且 达 到 可 重用 、 可 组 合 的 目的 。 


1.2.7 ”对 可 替代 性 的 优化 

如 果 你 在 一 个 大 中 型 组 织 工作 ， 很 可 能 接触 过 一 些 庞大 而 丑陋 的 遗留 系统 。 这 些 系 统 无 人 
赦 磁 ， 却 对 公司 业务 的 运营 至 关 重 要 。 更 糟糕 的 是 ， 这 些 程序 是 使 用 某 种 奇怪 的 Fortran 
变 体 编写 的 ， 并 且 只 能 运行 在 25 年 前 就 应 该 被 淘汰 的 硬件 上 。 为 什么 这 些 系统 直到 现在 
还 没有 被 取代 ?其 实 你 很 清楚 答案 : 工作 量 很 大 ， 而 且 风 险 很 高 。 





当 使 用 多 个 小 规模 服务 时 ， 重 新 实现 某 一 个 服务 或 者 是 直接 删除 该 服务 都 是 相对 可 操作 
的 。 想 想 看 ， 在 单 块 系统 中 你 是 否 会 在 一 天 内 删 掉 上 百 行 代码 ， 并 且 确 信 不 会 引发 问题 ? 
微服 务 中 的 多 个 服务 大 小 相似 ， 所 以 重 写 或 移 除 一 个 或 者 多 个 服务 的 阻碍 也 很 小 。 


使 用 微服 务 架 构 的 团队 可 以 在 需要 时 轻易 地 重 写 服务 ， 或 者 删除 不 再 使 用 的 服务 。 当 一 个 
代码 库 只 有 几 百 行 时 ， 人 们 也 不 会 对 它 有 太 多 感情 上 的 依赖 ， 所 以 很 容易 替换 它 。 


1.3 面向 服务 的 架构 


SOA (Service-Oriented Architecture， 面 向 服务 的 架构 ) 是 一 种 设计 方法 ， 其 中 包含 多 个 服 
务 ， 而 服务 之 间 通 过 配合 最 终 会 提供 一 系列 功能 。 一 个 服务 通常 以 独立 的 形式 存在 于 操作 
系统 进程 中 。 服 务 之 间 通 过 网 络 调 用 ， 而 非 采 用 进程 内 调用 的 方式 进行 通信 。 


人 们 逐渐 认识 到 SOA 可 以 用 来 应 对 腑 肿 的 单 块 应 用 程序 ， 从 而 提高 软件 的 可 重用 性 ， 比 
如 多 个 终端 用 户 应 用 程序 可 以 共享 同一 个 服务 。 它 的 目标 是 在 不 影响 其 他 任何 人 的 情况 下 
透明 地 替换 一 个 服务 ， 只 要 替换 之 后 的 服务 的 外 部 接口 没有 太 大 的 变化 即 可 。 这 种 性 质 能 
够 大 大 简化 软件 维护 甚至 是 软件 重 写 的 过 程 。 


SOA 本 身 是 一 个 很 好 的 想法 ， 但 尽管 做 了 很 多 尝试 ， 人 们 还 是 无 法 在 如 何 做 好 SOA 这 件 
事情 上 达成 共识 。 在 我 看 来 ， 业 界 的 大 部 分 尝试 都 没 能 把 它 作 为 一 个 整体 来 看 待 ， 因 此 很 
难 给 出 一 个 比 该 领域 现 有 厂家 提供 的 方案 更 好 的 替代 方案 。 


实施 SOA 时 会 遇 到 这 些 问题 通信 协议 (例如 SOAP) 如 何 选 择 、 第 三 方 中 间 件 如 何 选 
择 、 服 务 粒度 如 何 确定 等 ， 目 前 也 存在 一 些 关 于 如 何 划 分 系统 的 指导 性 原则 ， 但 其 中 有 很 
多 都 是 错误 的 。 本 书 的 剩余 部 分 会 分 别 讨 论 这 些 问 题 。 一 些 激进 和 人士 可 能 会 认为 这 些 厂家 
提出 并 推动 SOA 运动 的 目的 不 过 就 是 想 要 卖 更 多 的 产品 ， 而 这 些 相 似 的 产品 最 终 破 坏 了 
SOA 的 目标 。 


现 有 的 SOA 知识 并 不 能 帮助 你 把 很 大 的 应 用 程序 划 小 。 它 没有 提 到 多 大 算 大 ， 也 没有 讨 
论 如 何在 现实 世界 中 有 效 地 防止 服务 之 间 的 过 度 耦 合 。 由 于 这 些 点 没有 说 清楚 ， 所 以 你 在 
实施 SOA 时 会 遇 到 很 多 问题 。 

在 现实 世界 中 ， 由 于 我 们 对 项 目的 系统 和 架构 有 着 更 好 的 理解 ， 所 以 能 够 更 好 地 实施 
SOA， 而 这 事实 上 就 是 微服 务 架 构 。 就 像 认为 XP 或 者 Scrum 是 敏捷 软件 开发 的 一 种 特定 
方法 一 样 ， 你 也 可 以 认为 微服 务 架 构 是 SOA 的 一 种 特定 方法 。 


1.4 其 他 分 解 技 术 


当 你 开始 使 用 微服 务 时 会 发 现 ， 很 多 基于 微服 务 的 架构 主要 有 两 个 优势 : 首先 它 具 有 较 小 
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的 粒度 ， 其 次 它 能 够 在 解决 问题 的 方法 上 给 予 你 更 多 的 选择 。 那 么 其 他 的 分 解 技术 是 否 也 
有 相应 的 好 处 呢 ? 


1.4.1 共享 库 


基本 上 所 有 的 语言 都 支持 将 整个 代码 库 分 解 成 为 多 个 库 ， 这 是 一 种 非常 标准 的 分 解 技术 。 
这 些 库 可 以 由 第 三 方 或 者 自己 的 组 织 提供 。 


不 同 的 团队 和 服务 可 以 通过 库 的 形式 共享 功能 。 比 如 说 ， 我 可 能 会 创建 一 系列 有 用 的 集合 
操作 类 工具 ， 或 者 一 个 可 以 重用 的 统计 库 。 


团队 可 以 围绕 库 来 进行 组 织 ， 而 库 本 身 可 以 被 重用 。 但 是 这 种 方式 存在 一 些 缺 点 。 


首先 ， 你 无 法 选择 异 构 的 技术 。 一 般 来 讲 ， 这 些 库 只 能 在 同一 种 语言 中 ， 或 者 至 少 在 同一 
个 平台 上 使 用 。 其 次 ， 你 会 失去 独立 地 对 系统 某 一 部 分 进行 扩展 的 能 力 。 再 次 ， 除 非 你 使 
用 的 是 动态 链接 库 ， 否 则 每 次 当 库 有 更 新 的 时 候 ， 都 需要 重新 部 署 整个 进程 ， 以 至 于 无 法 
独立 地 部 署 变更 。 而 最 糟糕 的 影响 可 能 是 你 会 缺乏 一 个 比较 明显 的 接 颖 来 建立 架构 的 安全 
性 保护 措施 ， 从 而 无 法 确保 系统 的 弹性 。 


共享 库 确实 有 其 相应 的 应 用 场景 。 有 时 候 你 会 编写 代码 来 执行 一 些 公共 任务 ， 这 些 代 码 并 
不 属于 任何 一 个 业务 领域 ， 并 且 可 以 在 整个 组 织 中 进行 重用 ， 很 显然 这 些 代 码 就 应 该 成 为 
可 重用 的 库 。 但 是 你 还 是 需要 很 小 心 ， 如 果 使 用 共享 代码 来 做 服务 之 间 的 通信 的 话 ， 那 么 
它 会 成 为 一 个 耦合 点 。 第 4 章 会 再 讨论 该 问题 。 


服务 之 间 可 以 并 且 应 该 大 量 使 用 第 三 方 库 来 重用 公共 代码 ， 但 有 时 候 效果 不 太 好 。 


1.4.2 ”模块 
除了 简单 的 库 之 外 ， 有 些 语言 提供 了 自己 的 模块 分 解 技术 。 它 们 允许 对 模块 进行 生命 周期 
管理 ， 这 样 就 可 以 把 模块 部 署 到 运行 的 进程 中 ， 并 且 可 以 在 不 停止 整个 进程 的 前 提 下 对 某 
个 模块 进行 修改 。 


作为 一 个 与 具体 技术 相关 的 模块 分 解 技 术 ，OSGI (Open Source Gateway Initiative， 开 放 服 
务 网 关 协 议 ) 值得 一 提 。Java 本 身 并 没有 真正 的 模块 概念 ， 至 少 要 到 Java 9 才能 看 到 这 个 
特性 加 入 到 语言 中 。OSGI 最 初 是 Eclipse Java IDE 使 用 的 一 种 安装 插件 的 方式 ， 而 现在 很 
多 项 目 都 在 使 用 库 来 对 Java 程序 进行 模块 化 。 


OSGI 的 问题 在 于 它 非常 强调 诸如 模块 生命 周期 管理 之 类 的 事情 ， 但 语言 本 身 对 此 并 没有 
足够 的 支持 ， 这 就 迫使 模块 的 作者 做 更 多 的 工作 来 对 模块 进行 适当 的 隔离 。 在 一 个 进程 内 
也 很 容易 使 模块 之 间 过 度 耦 合 ， 从 而 引起 各 种 各 样 的 问题 。 我 个 人 对 OSGI 的 经 验 是 ， 它 
带 来 的 复杂 度 要 远 远 大 于 它 带 来 的 好 处 ， 即 使 对 于 很 优秀 的 团队 来 说 也 是 不 可 避免 。 业 界 
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的 其 他 同事 也 多 有 类 似 的 看 法 。 


Erlang 采用 了 不 同 的 方式 ， 模 块 的 概念 内 租 在 Erlang 语言 的 运行 时 中 ， 因 此 这 种 模块 化 分 
解 的 方式 是 很 成 熟 的 。 你 可 以 对 Erlang 的 模块 进行 停止 、 重 启 或 者 升级 等 操作 ， 且 不 会 引 
起 任何 问题 。Erlang 甚至 支持 同时 运行 同一 个 模块 的 多 个 版 本 ， 从 而 可 以 支持 更 加 优雅 的 
模块 升级 。 


Erlang 的 模块 化 能 力 确 实 非常 惊人 ， 但 是 即使 我 们 非常 幸运 地 能 够 使 用 具有 这 种 能 力 的 平 
台 ， 还 是 会 存在 与 使 用 共享 库 类 似 的 缺点 ， 即 它 会 大 大 限制 我 们 采用 新 技术 和 独立 对 服务 
进行 扩展 的 能 力 ， 并 且 有 可 能 会 导致 使 用 过 度 耦 合 的 集成 技术 ， 同 时 也 会 缺乏 相应 的 接 缝 
来 进行 架构 的 安全 性 保护 。 


还 有 一 个 值得 注意 的 事情 是 : 尽管 在 一 个 单 块 进程 中 创建 隔离 性 很 好 的 模块 是 可 能 的 ， 但 
是 我 很 少见 到 真正 有 人 能 做 到 。 这 些 模 块 会 迅速 和 其 他 代码 耦合 在 一 起 ， 从 而 失去 意义 。 
而 进程 边界 的 存在 则 能 够 有 效 地 避免 这 种 情况 的 发 生 (至 少 很 难 犯 错误 )。 尽 管 我 不 认为 
这 是 使 用 进程 隔离 的 主要 原因 ， 但 是 事实 上 确实 很 少 有 人 能 够 在 同一 个 进程 内 部 做 到 很 好 
的 模块 隔离 。 


除了 把 系统 划分 为 不 同 的 服务 之 外 ， 你 可 能 也 想 要 在 一 个 进程 内 部 使 用 模块 进行 划分 ， 但 
是 仅仅 使 用 模块 划分 不 能 解决 所 有 的 问题 。 如 果 你 只 使 用 Erlang， 可 能 会 花 很 长 时 间 才 能 
把 Erlang 的 模块 化 做 好 ， 但 是 我 怀疑 大 部 分 人 不 会 这 么 做 。 对 于 剩 下 的 人 来 说 ， 模 块 能 够 
提供 的 好 处 与 共享 库 比较 类 似 。 


1.5 没有 银 弹 


在 本 章 结束 之 前 ， 我 想 强调 一 点 : 微服 务 不 是 免费 的 午餐 ， 更 不 是 银 弹 ， 如 果 你 想 要 得 
到 一 条 通用 准则 ， 那 么 微服 务 是 一 个 错误 的 选择 。 你 需要 面 对 所 有 分 布 式 系 统 需要 面 对 
的 复杂 性 。 尽 管 后 面 用 很 多 的 篇 幅 来 讲解 如 何 管理 分 布 式 系统 ， 但 它 仍然 是 一 个 很 难 的 
问题 。 如 果 你 过 去 的 经 验 更 多 的 是 关于 单 块 系统 ， 那 么 为 了 得 到 上 述 那些 微服 务 的 好 处 ， 
你 需要 在 部 署 、 测 试 和 监控 等 方面 做 很 多 的 工作 。 你 还 需要 考虑 如 何 扩展 系统 ， 并 且 保 
证 它们 的 弹性 。 如 果 你 发 现 ， 还 需要 处 理 类 似 分 布 式 事务 或 者 与 CAP 相关 的 问题 ， 也 不 
要 感到 惊讶 ! 


每 个 公司 、 组 织 及 系统 都 不 一 样 。 微 服务 是 否 适 合 你 ， 或 者 说 你 能 够 在 多 大 程度 上 采用 微 
服务 ， 取 决 于 很 多 因素 。 在 本 书 的 剩余 章节 中 我 会 试图 给 出 一 些 指导 ， 指 出 一 些 常 见 的 陷 
阱 ， 从 而 帮助 你 制定 出 清晰 的 演化 路 线 。 
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1.6 ”小结 


希望 到 目前 为 止 你 已 经 了 解 了 什么 是 微服 务 、 微 服务 与 其 他 组 合 技术 有 何不 同 ， 以 及 它 能 
够 带 来 的 主要 好 处 又 是 什么 。 在 后 面 的 章节 中 ， 我 会 详细 讨论 如 何 得 到 这 些 好 处 及 如 何 避 
免 一 些 常见 的 陷阱 。 

需要 介绍 的 内 容 很 多 ， 但 要 从 一 个 合适 的 点 开始 。 架 构 师 承担 了 驱动 系统 演化 的 职责 ， 而 
引入 微服 务 之 后 的 一 个 主要 挑战 就 是 ， 架 构 师 职 责 的 相应 变化 。 下 一 章 会 讲 到 有 哪些 方法 
可 以 保证 我 们 从 这 个 新 架构 中 获 益 。 
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第 2 章 


演化 式 架构 师 





目前 为 止 可 以 看 到 ， 微 服务 给 我 们 提供 了 很 多 选择 ， 因 此 也 需要 我 们 做 很 多 决定 。 比 如 应 
该 使 用 多 少 种 不 同 的 技术 ， 不 同 的 团队 是 否 应 使 用 不 同 的 编程 规范 ， 是 应 该 合并 多 个 服务 
还 是 把 一 个 服务 拆 成 多 个 。 我 们 应 该 如 何 做 决定 呢 ? 这 些 架构 支持 在 频繁 变换 的 环境 下 以 
更 快 的 节奏 进行 变化 ， 因 此 架构 师 这 个 角色 也 需要 做 相应 的 改变 。 本 章 关 于 架构 师 职责 的 
观点 是 我 的 个 人 见解 ， 希 望 能 对 象牙 塔 中 的 定义 发 起 最 后 的 攻击 。 


全 
2.1 不 准确 的 比较 
“你 总 提 及 的 那个 词 ， 它 的 含义 与 你 想 表 达 的 意思 并 不 一 样 。” 
一 一 Inigo Montoya， 电 影 《 公 主 新 娘 》 中 的 人 物 


架构 师 的 一 个 重要 职责 是 ， 确 保 团队 有 共同 的 技术 愿景 ， 以 帮助 我 们 向 客户 交付 他 们 想 要 
的 系统 。 在 某 些 场景 下 ， 架 构 师 只 需要 和 一 个 团队 一 起 工作 ， 这 时 他 们 等 同 于 技术 引领 
者 。 在 其 他 情况 下 ， 他 们 要 对 整个 项 目的 技术 愿景 负责 ， 通 常 需要 协调 多 个 团队 之 间 ， 甚 
至 是 整个 组 织 内 的 工作 。 不 管 处 于 哪个 层次 ， 架 构 师 这 个 角色 都 很 微妙 。 在 一 般 的 组 织 
中 ， 非 常 出 色 的 开发 人 员 才 能 成 为 架构 师 ， 但 通常 会 比 其 他 角色 招致 更 多 的 批评 。 相 比 其 
他 角色 而 言 ， 架 构 师 对 多 个 方面 都 有 更 加 直接 的 影响 ， 比 如 所 构建 系统 的 质量 、 同 事 的 工 
作 条 件 、 组 织 应 对 变化 的 能 力 等 。 这 个 角色 也 很 难 做 好 ， 原 因 何 在 呢 ? | 


很 多 时 候 人 们 似乎 忘 了 ， 我 们 的 行业 还 很 年 轻 。 我 们 编写 的 程序 在 计算 机 上 运行 ， 而 计算 
机 从 出 现 到 现在 也 只 有 70 年 左右 而 已 ， 因 此 我 们 需要 在 现存 的 行业 中 不 断 地 和 寻找， 帮助 
别人 理解 我 们 到 底 是 做 什么 的 。 我 们 不 是 医生 或 者 医学 工程 师 ， 也 不 是 水 管 工 或 者 电工 。 


11 


我 们 处 于 这 些 行 业 的 中 间 地 带 ， 因 此 社会 很 难 理解 我 们 ， 我 们 也 不 清楚 自己 到 底 处 于 什么 
位 置 。 


所 以 我 们 尝试 借鉴 其 他 的 行业 。 我 们 把 自己 称 作 软件 “工程 师 ” 或 者 “建筑 师 ” ,但 其 实 我 
们 不 是 ， 对 吧 ? 建筑 师 和 工程 师 所 具备 的 精确 性 和 纪律 性 是 遥 不 可 及 的 ， 而 且 他 们 在 社会 
中 的 重要 性 也 很 容易 理解 。 我 的 一 个 朋友 在 成 为 认证 建筑 师 的 前 一 天 说 :“ 如 果 明 天 我 在 
酒吧 对 于 如 何 盖 房 子 给 了 你 错误 的 建议 ， 那 么 我 要 为 此 负责 。 从 法 律 的 角度 来 说 ， 因 为 我 
是 一 个 认证 建筑 师 ， 所 以 做 错 了 很 可 能 会 被 起 诉 。 ”他 们 在 社会 中 有 非常 重要 的 作用 ， 因 
此 需要 经 过 专门 认证 才能 工作 。 比 如 ， 在 英国 你 至 少 需要 学 习 七 年 才能 成 为 一 名 建筑 师 。 
这 些 职业 在 几 千 年 前 就 存在 了 ， 而 我 们 呢 ? 相差 甚 远 。 这 也 就 是 为 什么 我 觉得 很 多 形式 的 
IT 证 书 都 没 价值 ， 因 为 我 们 对 什么 是 好 的 知之 其 少 。 


有 些 人 想 要 得 到 社会 的 认可 ， 所 以 借鉴 了 这 些 已 经 被 大 众 认 知 的 行业 中 的 名 词 ， 但 这 样 可 
能 会 造成 两 个 问题 。 首 先 ， 这 么 做 的 前 提 是 我 们 要 清楚 自己 应 该 干什么 ， 而 多 数 情况 下 事 
实 并 非 如 此 。 并 不 是 说 建筑 和 桥梁 就 一 定 不 会 倒塌 ， 而 是 它们 倒塌 的 次 数 要 比 我 们 程序 前 
省 的 次 数 少 得 多 ， 所 以 跟 工 程 师 相 类 比 是 不 公平 的 。 其 次 ， 经 过 一 些 粗略 的 观察 就 会 发 现 
这 种 类 比 是 站 不 住 脚 的 。 因 为 如 果 桥 梁 建 筑 和 编程 类 似 的 话 ， 那 么 建 到 一 半 的 时 候 你 可 能 
会 发 现 对 岸 比 预想 的 要 远 50 米 ， 而 且 其 材质 是 花岗岩 而 不 是 泥土 ， 更 糟糕 的 是 我 们 最 终 
想 要 的 是 一 座 公路 桥 而 不 是 步行 桥 。 软 件 并 没有 类 似 这 种 真正 的 工程 师 和 建筑 师 在 物理 规 
则 方面 的 约束 ， 事 实 上 ， 我 们 要 创造 的 东西 从 设计 上 来 说 就 是 要 足够 灵活 ， 有 很 好 的 适应 
性 ， 并 且 能 够 根据 用 户 的 需求 进行 演化 。 


也 许 “ 建 筑 师 ”这 个 术语 是 很 有 问题 的 。 建 筑 师 的 工作 是 做 好 详细 的 计划 ， 然 后 让 别人 去 
理解 和 执行 。 进 行 这 项 工作 需要 对 艺术 性 和 工程 性 进行 权衡 ， 并 且 对 整体 进行 监督 ， 而 其 
他 所 有 的 视角 都 要 届 从 于 建筑 师 的 视角 ， 当 然 有 时 候 他 们 也 会 考虑 结构 工程 师 基于 物理 规 
则 的 一 些 建议 。 在 我 们 的 行业 中 ， 这 种 建筑 师 的 视角 会 导致 一 些 非常 糟糕 的 实践 。 人 们 试 
图 通过 大 量 的 图 表 和 文档 创建 出 一 个 完美 的 方案 ， 而 忽略 了 很 多 基础 性 的 未 知 因素 。 使 用 
这 种 方式 会 导致 人 们 很 难 真正 理解 实现 起 来 的 难度 ， 甚 至 不 知道 这 个 设计 到 底 能 否 奏效 ， 
想 要 对 系统 了 解 更 多 之 后 再 对 设计 进行 修改 就 更 不 可 能 了 。 


当 我 们 把 自己 和 工程 师 或 者 建筑 师 做 比较 时 ， 很 有 可 能 会 做 出 错误 的 决定 。 不 幸 的 是 ， 架 
构 师 这 个 词 已 经 被 大 众 接受 了 ， 所 以 现在 我 们 能 够 做 的 事情 就 是 在 上 下 文中 去 重新 定义 这 
个 词 的 含义 。 


2.2 ”架构 师 的 演化 视角 
与 建造 建筑 物 相 比 ， 在 软件 中 我 们 会 面临 大 量 的 需求 变更 ， 使 用 的 工具 和 技术 也 具有 多 样 


注 1:“ 建 筑 师 ”和 “架构 师 ” 在 英文 中 都 是 architect， 而 “架构 师 ”这 个 词 的 含义 借鉴 的 是 建筑 师 在 建筑 
中 的 角色 ， 接 下 来 会 在 不 同 的 上 下 文中 分 别 使 用 “建筑 师 ” 和 “架构 师 ” 两 种 译 法 。 一 一 译 者 注 
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性 。 我 们 创造 的 东西 并 不 是 在 某 个 时 间 点 之 后 就 不 再 变化 了 ， 其 至 在 发 布 到 生产 环境 之 
后 ， 软 件 还 能 继续 演化 。 对 于 我 们 创造 的 大 多 数 产品 来 说 ， 交 付 到 客户 手 里 之 后 ， 还 是 要 
响应 客户 的 变更 需求 ， 而 不 是 简单 地 交 给 客户 一 个 一 成 不 变 的 软件 包 。 因 此 架构 师 必 须 改 
变 那 种 从 一 开始 就 要 设计 出 完美 产品 的 想法 ， 相 反 我 们 应 该 设计 出 一 个 合理 的 框架 ， 在 这 
个 框架 下 可 以 慢 慢 演化 出 正确 的 系统 ， 并 且 一 旦 我 们 学 到 了 更 多 知识 ， 应 该 可 以 很 容易 地 
应 用 到 系统 中 。 


尽管 截止 到 目前 ， 本 章 都 在 警告 你 不 要 跟 其 他 行业 做 过 多 的 比较 ， 但 是 我 发 现 ， 有 一 个 角 
色 可 以 更 好 地 跟 IT 架构 师 相 类 比 。 这 个 想法 是 Erik Doernenburg 告诉 我 的 ， 他 认为 更 好 的 
类 比 是 城市 规划 师 ， 而 不 是 建筑 师 。 如 果 你 玩 过 SimCity， 那 么 你 应 该 很 熟悉 城市 规划 师 
这 个 角色 。 城 市 规划 师 的 职责 是 优化 城镇 布局 ， 使 其 更 易于 现 有 居民 生活 ， 同 时 也 会 考虑 
一 些 未 来 的 因素 。 为 了 达到 这 个 目的 ， 他 需要 收集 各 种 各 样 的 信息 。 规 划 师 影响 城市 演化 
的 方法 很 有 趣 ， 他 不 会 直接 说 “在 那个 地 方 盖 一 栋 这 样 的 楼 ”， 相 反 他 会 对 城市 进行 分 区 。 
就 像 在 SimCity 中 一 样 ， 你 可 能 会 把 城市 的 某 一 部 分 规划 成 为 工业 区 ， 另 外 一 部 分 规划 成 
为 居民 区 ， 然 后 其 他 人 会 自己 决定 具体 要 盖 什 么 建筑 物 。 当 然 这 个 决定 会 受到 一 定 的 约 
束 ， 比 如 工厂 一 定 要 盖 在 工业 区 。 城 市 规划 师 更 多 考虑 的 是 人 和 公共 设施 如 何 从 一 个 区 域 
移 到 另 一 个 区 域 ， 而 不 是 具体 在 每 个 区 域 中 发 生 的 事情 。 


很 多 人 把 城市 比 作 生 物 ， 因 为 城市 会 时 不 时 地 发 生变 化 。 当 居民 对 城市 的 使 用 方式 有 所 变 
化 ， 或 者 受到 外 力 的 影响 时 ， 城 市 就 会 相应 地 演化 。 城 市 规划 师 应 该 尽量 去 预期 可 能 发 生 
的 变化 ， 但 是 也 需要 明白 一 个 事实 : 尝试 直接 对 各 个 方面 进行 控制 往往 不 会 奏效 。 


上 面 描述 的 城镇 和 软件 的 对 应 关系 应 该 是 很 明显 的 。 当 用 户 对 软件 提出 变更 需求 时 ， 我 们 
需要 对 其 进行 响应 并 做 出 相应 的 改变 。 未 来 的 变化 很 难 预见 ， 所 以 与 其 对 所 有 变化 的 可 能 
性 进行 预测 ， 不 如 做 一 个 允许 变化 的 计划 。 为 此 ， 应 该 避免 对 所 有 事情 做 出 过 于 详尽 的 设 
计 。 城 市 这 个 系统 应 该 让 生活 在 其 中 的 住户 感到 开心 。 有 一 件 经 常 被 人 们 忽略 的 事情 是 : 
系统 的 使 用 者 不 仅仅 是 终端 用 户 ， 还 有 工作 在 其 上 的 开发 人 员 和 运 维 人 员 ， 他 们 也 对 系统 
的 需求 变更 负责 。 借 鉴 Frank Buschmann 的 一 个 说 法 : 架构 师 的 职责 之 一 就 是 保证 该 系统 
适合 开发 人 员 在 其 上 工作 。 


城市 规划 师 就 像 建筑 师 一 样 ， 需 要 知道 什么 时 候 他 的 计划 没有 得 到 执行 。 尽 管 他 会 引入 园 
少 的 规范 ， 并 尽量 少 地 对 发 展 的 方向 进行 纠正 ， 但 是 如 果 有 人 决定 要 在 住宅 区 建造 一 个 污 
水 地 ， 他 应 该 能 制止 。 


所 以 我 们 的 架构 师 应 该 像 城市 规划 师 那 样 专注 在 大 方向 上 ， 只 在 很 有 限 的 情况 下 参与 到 非 
常 具 体 的 细节 实现 中 来 。 他 们 需要 保证 系统 不 但 能 够 满足 当前 的 需求 ， 还 能 够 应 对 将 来 的 
变化 。 而 且 他 们 还 应 该 保证 在 这 个 系统 上 工作 的 开发 人 员 要 和 使 用 这 个 系统 的 用 户 一 样 开 
心 。 昕 起 来 这 是 很 高 的 标准 ， 那 么 从 哪里 开始 呢 ? 
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2.3 分 区 


前 面 我 们 将 架构 师 比 作 城市 规划 师 ， 那 么 在 这 个 比喻 里 面 ， 区 域 的 概念 对 应 的 是 什么 呢 ? 
它们 应 该 是 我 们 的 服务 边界 ， 或 者 是 一 些 粗 粒度 的 服务 群 组 。 作 为 架构 师 ， 不 应 该 过 多 关 
注 每 个 区 域内 发 生 的 事情 ， 而 应 该 多 关注 区 域 之 间 的 事情 。 这 意味 着 我 们 应 该 考虑 不 同 的 
服务 之 间 如 何 交 互 ， 或 者 说 保证 我 们 能 够 对 整个 系统 的 健康 状态 进行 监控 。 至 于 多 大 程度 
地 介入 区 域内 部 事务 ， 在 不 同 的 情况 下 则 有 所 不 同 。 很 多 组 织 采 用 微服 务 是 为 了 使 团队 的 
自治 性 最 大 化 ， 第 10 章 会 对 这 个 话题 做 更 多 讨论 。 如 果 你 就 处 在 这 样 的 组 织 中 ， 那 么 你 
会 更 多 地 依靠 团队 来 做 出 正确 的 局 部 决定 。 


但 是 在 区 域 之 间 ， 或 者 说 传统 架构 图 中 的 框图 之 间 ， 我 们 需要 非常 小 心 ， 因 为 在 这 些 地 方 
犯 的 错误 会 很 难 纠正 。 


每 一 个 服务 内 部 可 以 允许 团队 自己 选择 不 同 的 技术 栈 或 者 数据 存储 技术 ， 当 然 其 他 的 问题 
也 需要 考虑 。 但 是 事实 上 也 不 会 无 限制 地 允许 团队 选择 任意 技术 栈 ， 比 如 如 果 需 要 支持 10 
种 不 同 的 技术 栈 的 话 ， 可 能 会 在 招聘 上 遇 到 困难 ， 或 者 很 难 在 不 同 团队 之 间 交 换 人 员 。 类 
似 地 ， 如 果 每 个 团队 自己 选择 完全 不 同 的 存储 技术 ， 可 能 你 会 发 现 自己 对 它们 都 不 够 熟 
悉 。 举 个 例子 ，Netflix 在 Cassandra 这 种 存储 技术 上 有 非常 成 熟 的 使 用 规范 ， 并 认为 相 比 
对 特定 的 任务 使 用 最 合适 的 技术 而 言 ， 围 绕 Cassandra 来 构建 相关 的 工具 和 培养 专家 更 重 
要 。Netflix 是 一 个 很 极端 的 例子 ， 他 们 认为 可 伸缩 性 是 最 重要 的 因素 ， 但 是 通过 这 个 例子 
尔 可 以 有 自己 的 理解 。 


然而 ， 服 务 之 间 的 事情 可 能 会 变 得 很 糟糕 。 如 果 一 个 服务 决定 通过 HTTP 暴露 REST 接 
口 ， 另 一 个 用 的 是 protocol buffers， 第 三 个 用 的 是 Java RMI， 那 么 作为 一 个 服务 的 消费 者 
就 需要 支持 各 种 形式 的 交互 ， 这 对 于 消费 者 来 说 简直 就 是 眶 梦 。 这 也 就 是 为 什么 我 强调 我 
们 应 该 “担心 服务 之 间 的 交互 ， 而 不 需要 过 于 关注 各 个 服务 内 部 发 生 的 事情 ”。 





代码 架构 师 

如 果 想 确保 我 们 创造 的 系统 对 开发 人 员 足 够 友好 ， 那 么 架构 师 需要 理解 他 们 的 决定 对 
系统 会 造成 怎样 的 影响 。 最 低 的 要 求 是 ， 架构 师 需要 花 时 间 和 团队 在 一 起 工作 ， 理 想 
情况 下 他 们 应 该 一 起 进行 编码 。 对 于 实施 结对 编程 的 团队 来 说 ， 架 构 师 很 容易 花 一 定 
的 时 间 和 团队 成 员 进行 结对 。 理 想 情 况 下 ， 你 应 该 参与 普通 的 工作 ， 这 样 才 能 真正 理 
解 普 通 的 工作 是 什么 样子 。 架 构 师 和 团队 真正 坐 在 一 起 ， 这 件 事情 再 怎么 强调 也 不 过 
分 ! 相 比 通过 电话 进行 沟通 或 者 只 看 看 团队 的 代码 ， 一 起 和 团队 工作 的 这 种 方式 会 更 
加 有 效 。 至 于 和 团队 在 一 起 工作 的 频率 可 以 取决 于 团队 的 大 小 ， 关 键 是 它 必 须 成 为 日 
常 工作 的 一 部 分 。 如 果 你 和 四 个 团队 在 一 起 工作 ， 那 么 每 四 周 和 每 个 团队 都 工作 半天 ， 
可 以 帮助 你 有 效 地 和 团队 进行 沟通 ， 并 了 解 他 们 部 在 做 什么 

















2.4 一 个 原则 性 的 方法 
“规则 对 于 智者 来 说 是 指导 ， 对 于 思春 者 来 说 是 遵从 ，。” 
一 一 一 般 认 为 出 自 Douglas Bader 


做 系统 设计 方面 的 决定 通常 都 是 在 做 取舍 ， 而 在 微服 务 架构 中 ， 你 要 做 很 多 取舍 ! 当选 择 
一 个 数据 存储 技术 时 ， 你 会 选择 不 太 熟 悉 但 能 够 带 来 更 好 可 伸缩 性 的 技术 吗 ? 在 系统 中 存 
在 两 种 技术 栈 是 否 可 接受 ? 那 三 种 呢 ? 做 某 些 决策 所 需要 的 信息 很 容易 获取 ， 这 些 还 算是 
容易 的 。 但 是 有 些 决 策 所 需要 的 信息 难以 完全 获取 ， 那 又 该 怎么 办 呢 ? 


基于 要 达到 的 目标 去 定义 一 些 原 则 和 实践 对 做 设计 来 说 非常 有 好 处 。 接 下 来 让 我 们 对 它们 
做 一 些 讨论 。 


2.4.1 战略 目标 

做 一 名 架构 师 已 经 很 困难 了 ,但 幸运 的 是 ， 通 常 我 们 不 需要 定义 战略 目标 ! 战略 目标 关心 
的 是 公司 的 走向 以 及 如 何 才能 让 自己 的 客户 满意 。 这 些 战略 目标 的 层次 一 般 都 很 高 ， 但 通 
常 不 会 涉及 技术 这 个 层面 ， 一 般 只 在 公司 或 者 部 门 层 面 制定 。 这 些 目标 可 以 是 “开拓 东南 
亚 的 新 市 场 ”或 者 “让 用 户 尽 量 使 用 自助 服务 "。 因 为 这 些 都 是 你 的 组 织 前 进 的 方向 ， 所 
以 需要 确保 技术 层面 的 选择 能 够 与 之 一 致 。 


如 果 你 是 制定 公司 技术 愿景 的 人 ， 那 么 你 可 能 需要 花费 更 多 的 时 间 和 组 织 内 非 技术 的 部 分 
(通常 他 们 被 叫 作 业务 部 门 ) 进行 交互 。 那 么 业务 部 门 的 愿景 是 什么 ” 它 又 会 如 何 发 生 改 
变 呢 ? 


2.4.2 ”原则 

为 了 和 更 大 的 目标 保持 一 致 ， 我 们 会 制定 一 些 具体 的 规则 ， 并 称 之 为 原则 ， 它 不 是 一 成 不 
变 的 。 举 个 例子 ， 如 果 组 织 的 一 个 战略 目标 是 缩短 新 功能 上 线 的 周期 ， 那 么 一 个 可 能 的 原 
则 是 ， 交 付 团 队 应 该 对 整个 软件 生命 周期 有 完全 的 控制 权 ， 这 样 他 们 就 可 以 及 时 交付 任何 
就 绪 的 功能 ， 而 不 受 其 他 团队 的 限制 。 如 果 组 织 的 另 一 个 目标 是 在 其 他 国家 快速 增长 业 
务 ， 你 需要 使 用 的 原则 可 能 就 是 ， 整 个 系统 必须 能 够 方便 地 部 署 到 相应 的 国家 ， 从 而 符合 
该 国家 对 数据 存储 地 理 位 置 方面 的 要 求 。 


很 有 可 能 这 些 原则 并 不 适合 你 的 组 织 。 一 般 来 讲 ， 原 则 最 好 不 要 超过 10 个 ， 或 者 能 够 写 
在 一 张 海 报 上 ， 不 然 大 家 会 很 难 记 住 。 而 且 原 则 越 多 ， 它 们 发 生 重合 和 冲突 的 可 能 性 就 
越 大 。 


Heroku 的 12 Factors (http://www.12factor.net) 就 是 一 组 能 够 帮助 你 在 Heroku 平台 上 创建 
应 用 的 设计 原则 ， 当 然 它们 在 其 他 的 上 下 文中 可 能 也 有 用 。 其 中 ， 有 些 原则 实际 上 是 为 
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了 让 你 的 应 用 程序 可 以 适应 Heroku 这 个 平台 而 引入 的 约束 。 约 束 是 很 难 (或 者 说 不 可 能 ) 
改变 的 ， 但 原则 也 是 我 们 自己 决定 的 。 你 应 该 显 式 地 指出 哪些 是 原则 ， 哪 些 是 约束 ， 这 样 
用 户 就 会 很 清楚 哪些 是 不 能 变 的 。 从 个 人 角度 来 讲 ， 我 认为 把 原则 和 约束 放 在 同一 个 列表 
中 是 有 好 处 的 ， 这 样 我 们 就 可 以 不 时 地 回顾 一 下 这 些 约束 是 否 真 的 不 可 改变 。 


2.4.3 ”实践 

我 们 通过 相应 的 实践 来 保证 原则 能 够 得 到 实施 ， 这 些 实践 能 够 指导 我 们 如 何 完成 任务 。 通 
常 这 些 实践 是 技术 相关 的 ， 而 且 是 比较 底层 的 ， 所 以 任何 一 个 开发 人 员 都 能 够 理解 。 这 些 
实践 包括 代码 规范 、 日 志 数 据 集 中 捕获 或 者 HTTP/REST 作为 标准 集成 风格 等 。 由 于 实践 
比较 偏 技 术 层 面 ， 所 以 其 改变 的 频率 会 高 于 原则 。 


就 像 原则 那样 ， 有 时 候 实 践 也 会 反映 出 组 织 内 的 一 些 限制 。 比 如 ， 如 果 你 只 支持 CentOS， 
那么 相应 的 实践 就 应 该 考虑 这 个 因素 。 


实践 应 该 巩固 原则 。 比 如 前 面 我 们 提 过 一 个 原则 是 开发 团队 应 该 可 以 对 软件 开发 全 流程 有 
控制 权 ， 相 应 的 实践 就 是 所 有 的 服务 都 部 署 在 不 同 的 AWS 账户 中 ， 从 而 可 以 提供 资源 的 
自助 管理 和 与 其 他 团队 的 隔离 。 


2.4.4 将 原则 和 实践 相 结合 

有 些 东 西 对 一 些 人 来 说 是 原则 ， 对 另 一 些 人 来 说 则 可 能 是 实践 。 比 如 ， 你 可 能 会 把 使 用 
HTTP/REST 作为 原则 ， 而 不 是 实践 。 这 也 没什么 问题 ， 关 键 是 要 有 一 些 重要 的 原则 来 指 
导 系 统 的 演化 ， 同 时 也 要 有 一 些 细节 来 指导 如 何 实现 这 些 原则 。 对 于 一 个 足够 小 的 群 组 ， 
比如 单个 团队 来 说 ， 将 原则 和 实践 进行 结合 是 没 问 题 的 。 但 是 在 一 个 大 型 组 织 中 ， 技 术 和 
工作 实践 可 能 不 一 样 ， 在 不 同 的 地 方 需要 的 实践 可 能 也 不 同 。 不 过 这 也 没关系 ， 只 要 它们 
都 能 够 映射 到 相同 的 原则 即 可 。 比 如 一 个 .NET 团队 可 能 有 一 套 实 践 ， 一 个 Java 团队 有 另 
一 套 实践 ， 但 背后 的 原则 是 相同 的 。 


2.4.5 ”真实 世界 的 例子 

我 的 同事 Evan Bottcher 帮 一 个 客户 画 出 了 如 图 2-1 所 示 的 图 表 。 该 图 很 清楚 地 显示 了 有 目 
标 、 原 则 和 实践 之 间 的 相互 影响 。 几 年 间 ， 实 践 改动 得 很 频繁 ， 而 原则 基本 上 没 怎么 变 。 
可 以 把 这 样 一 个 图 表 打 印 出 来 并 共享 给 相关 人 员 ， 其 中 每 个 条 目 都 很 简单 ， 所 以 开发 人 员 
应 该 很 容易 记 住 它们 。 尽 管 每 条 实践 背后 还 有 很 多 细节 ， 但 仅仅 能 把 它们 总 结 表述 出 来 也 
是 非常 有 用 的 。 











战略 目标 架构 原则 设计 和 交付 实践 














图 2-1: 原则 和 实践 的 真实 例子 


上 面 提 到 的 一 些 项 可 以 使 用 文档 来 支撑 ， 但 大 多 数 情况 下 我 喜欢 给 出 一 些 示例 代码 供 人 阅 
读 、 研 究 和 运行 ， 从 而 传递 上 面 涉及 的 那些 信息 。 更 好 的 方式 是 ， 创 造 一 些 工 具 来 保证 我 
们 所 做 事情 的 正确 性 。 后 面 马上 就 会 对 这 个 话题 做 深入 的 讨论 。 


2.5 要求 的 标准 

当 你 浏览 这 些 实践 ， 并 思考 你 需要 做 的 取舍 时 ， 需 要 注意 一 个 很 重要 的 因素 : 系统 允许 多 
少 可 变性 。 我 们 需要 识别 出 各 个 服务 需要 遵守 的 通用 规则 ， 一 种 方法 是 ， 给 出 一 个 好 服务 
的 例子 来 阐释 好 服务 的 特点 。 在 系统 中 什么 是 好 服务 “公民 ” 呢 ? 它 需 要 有 什么 样 的 能 力 
才能 保证 整个 系统 是 可 控 的 ， 并 且 一 个 有 问题 的 服务 不 会 导致 整个 系统 瘫痪 ?这 些 问题 很 
难 回 答 ， 因 为 就 像 人 一 样 ， 在 某 种 上 下 文中 是 一 个 好 公民 不 代表 在 其 他 上 下 文中 也 是 ， 但 
我 们 还 是 可 以 观察 到 各 个 服务 中 一 些 通用 的 优秀 实践 。 一 些 关 键 领域 有 太 多 的 变化 方向 ， 
而 这 可 能 会 导致 很 多 问题 。 就 像 Netflix 的 Ben Christensen 说 的 那样 ， 当 我 们 在 考虑 一 个 更 
大 的 全 景 图 时 ,“ 系 统 应 该 由 很 多 小 的 但 有 自治 生命 周期 的 组 件 构成 ， 而 且 这 些 组 件 之 间 
有 着 紧密 的 关联 "。 所 以 在 优化 单个 服务 自治 性 的 同时 ， 也 要 兼顾 全 局 。 一 种 能 帮助 我 们 
实现 平衡 的 方法 就 是 ， 清 楚 地 定义 出 一 个 好 服务 应 有 的 属性 。 
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2.5.1 监控 

能 够 清晰 地 描绘 出 跨 服务 系统 的 健康 状态 非常 关键 。 这 必须 在 系统 级 别 而 非 单个 服务 级 别 
进行 考虑。 在 第 8 章 会 讲 到 ， 往 往 在 需要 诊断 一 个 跨 服务 的 问题 或 者 想 要 了 解 更 大 的 趋势 
时 ， 你 才 需 要 知道 每 个 服务 的 健康 状态 。 简 单 起 见 ， 我 建议 人 确保 所 有 的 服务 使 用 同样 的 方 
式 报 告 健康 状态 及 其 与 监控 相关 的 数据 。 


你 可 能 会 选择 使 用 推送 机 制 ， 也 就 是 说 ， 每 个 服务 主动 把 数据 推送 到 某 个 集中 的 位 置 。 你 
可 以 使 用 Graphite 来 收集 指标 数据 ， 使 用 Nagios 来 检测 健康 状态 ， 或 者 使 用 轮 询 系统 来 
从 各 个 节点 收集 数据 ， 但 无 论 你 的 选择 是 什么 ， 都 应 尽量 保持 标准 化 。 每 个 服务 内 的 技术 
应 该 对 外 不 透明 ， 并 且 不 要 为 了 服务 的 具体 实现 而 改变 监控 系统 。 日 志 功能 和 监控 情况 类 
似 : 也 需要 集中 式 管理 。 


2.5.2 ”接口 


选用 少数 几 种 明确 的 接口 技术 有 助 于 新 消费 者 的 集成 。 使 用 一 种 标准 方式 很 好 ， 两 种 也 不 
太 坏 ， 但 是 20 种 不 同 的 集成 技术 就 太 粳 糕 了 。 这 里 说 的 不 仅仅 是 关于 接口 的 技术 和 协议 。 
举 个 例子 ， 如 果 你 选用 了 HTTP/REST， 在 URL 中 你 会 使 用 动词 还 是 名 词 ? 你 会 如 何 处 理 
资源 的 分 页 ?你 会 如 何 处 理 不 同 版 本 的 API ? 


2.5.3 ”架构 安全 性 

一 个 运行 异常 的 服务 可 能 会 毁 了 整个 系统 ， 而 这 种 后 果 是 我 们 无 法 承担 的 ， 所 以 ， 必 须 保 
证 每 个 服务 都 可 以 应 对 下 游 服 务 的 错误 请 求 。 没 有 很 好 处 理 下 游 错 误 请 求 的 服务 越 多 ,我 
们 的 系统 就 会 越 脆 弱 。 你 可 以 至 少 让 每 个 下 游 服 务 使 用 它们 自己 的 连接 池 ， 进 一 步 让 每 个 
服务 使 用 一 个 断路 器 。 在 第 11 章 中 讨论 规模 化 微服 务 时 ， 会 就 这 个 话题 做 更 深入 的 讨论 。 


返回 码 也 应 该 遵守 一 定 的 规则 。 如 果 你 的 断路 器 依赖 于 HTTP 返回 码 ， 并 且 一 个 服务 
决定 使 用 2XX 作为 错误 码 ， 或 者 把 4XX 和 5XX 混用 ， 那 么 这 种 安全 措施 就 没什么 意 
义 了 。 即 使 你 使 用 的 不 是 HITP， 也 应 该 注意 类 似 的 问题 。 对 以 下 几 种 请 求 做 不 同 的 处 
理 可 以 帮助 系统 及 时 失败 ， 并 且 也 很 容易 追溯 问题 : (1) 正常 并 且 被 正确 处 理 的 请 求 ; 
(2) 错误 请 求 ， 并 且 服 务 识别 出 了 它 是 错误 的 ， 但 什么 也 没 做 ，(3) 被 访问 的 服务 宕 机 
了 ， 所 以 无 法 判断 请 求 是 否 正常 。 如 果 我 们 的 服务 没有 很 好 地 遵守 这 些 规则 ， 那 么 整个 
系统 就 会 更 加 脆弱 。 


2.6 ”代码 治理 


聚 在 一 起 ， 就 如 何 做 事情 达成 共识 是 一 个 好 主意 。 但 是 ， 花 时 间 保 证 人 们 按照 这 个 共识 来 
做 事情 就 没 那 么 有 趣 了 ， 因 为 在 各 个 服务 中 使 用 这 些 标准 做 法 会 成 为 开发 人 员 的 负担 。 我 
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坚信 应 该 使 用 简单 的 方式 把 事情 做 对 。 我 见 过 的 比较 奏效 的 两 种 方式 是 ， 提 供 范例 和 服务 
代码 模板 。 


2.6.1 范例 

编写 文档 是 有 用 的 。 我 很 清楚 这 样 做 的 价值 ， 这 也 正 是 我 写 这 本 书 的 原因 。 但 是 开发 人 员 
更 喜欢 可 以 查看 和 运行 的 代码 。 如 果 你 有 一 些 很 好 的 实践 希望 别人 采纳 ， 那 么 给 出 一 系列 
的 代码 范例 会 很 有 帮助 。 这 样 做 的 一 个 初 囊 是 : 如 果 在 系统 中 人 们 有 比较 好 的 代码 范例 可 
以 模仿 ， 那 么 他 们 也 就 不 会 错 得 很 离谱 。 


理想 情况 下 ， 你 提供 的 优秀 范例 应 该 来 自 真实 项 目 ， 而 不 是 专门 实现 的 一 RT 
因为 如 果 你 的 范例 来 自 真正 运行 的 代码 ， 那 么 就 可 以 保证 其 中 所 体现 的 那些 原则 都 是 
理 的 。 


2.6.2 裁剪 服务 代码 模板 


如 果 能 够 让 所 有 的 开发 人 员 很 容易 地 遵守 大 部 分 的 指导 原则 ， 那 就 太 棒 了 。 一 种 可 能 
方式 是 ， 当 开发 人 员 想 要 实现 一 个 新 服务 时 ， 所 有 实现 核心 属性 的 那些 代码 都 应 该 是 现 


Dropwizard (http://dropwizard.io) 和 Karyon (https://github.com/Netflix/karyon) 是 两 个 基于 
JVM 的 开源 微 容 器 。 它 们 的 运行 模式 相似 ， 会 自动 下 载 一 系列 第 三 方 库 ， 这 些 库 可 以 提供 
一 些 特性 ， 比 如 健康 检查 、HTTP 服务 、 提 供 指标 数据 接口 等 。 这 样 你 就 有 了 一 个 可 以 从 
”命令 行 启动 的 答 入 式 . servlet 容器 。 这 是 一 个 很 好 的 开始 ， 但 是 你 可 以 做 得 更 多 。 在 实际 工 
作 中 ， 你 可 以 使 用 Dropwizard 和 Karyon 作为 基础 ， 然 后 根据 自己 的 上 下 文 加 入 更 多 的 定 
制 化 特性 。 


举 个 例子 ， 如 果 你 想 要 断路 器 的 规范 化 使 用 ， 那 么 就 可 以 将 Hystrix (https://github.com/ 
Netflix/Hystrix) 这 个 库 集成 进来 。 或 者 ， 你 想 要 把 所 有 的 指标 数据 都 发 送 到 中 心 Graphite 
服务 器 ， 那 么 就 可 以 使 用 像 Dropwizard's Metrics (https://github.com/dropwizard/metrics) 这 
样 的 开源 库 ， 只 需要 在 此 基础 上 做 一 些 配 置 ， 响 应 时 间 和 错误 率 等 信息 就 会 自动 被 推送 到 
某 个 已 知 的 服务 器 上 。 


针对 自己 的 开发 实践 裁剪 出 一 个 服务 代码 模板 ， 不 但 可 以 提高 开发 速度 ， 还 可 以 保证 服务 
的 质量 。 


当然 ， 如 果 你 的 组 织 使 用 多 种 不 同 的 技术 栈 ， 那 么 针对 每 种 技术 栈 都 需要 这 样 一 个 服务 代 
码 模板 。 你 也 可 以 把 它 当 作 一 种 在 团队 中 巧妙 地 限制 语言 选择 的 方式 。 如 果 只 存在 基于 
Java 的 服务 代码 模板 ， 那 么 选用 其 他 技术 栈 就 意味 着 开发 人 员 需 要 自己 做 很 多 额外 的 工 
作 。Netflix 非常 在 意 服务 的 容错 性 ， 因 为 它们 不 希望 一 个 服务 停止 工作 造成 整个 系统 都 
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无 法 正常 工作 。Netflix 提供 了 一 个 基于 JVM 的 库 来 处 理 这 些 问 题 。 任 何 一 个 新 技术 栈 的 
引入 都 意味 着 要 把 这 部 分 工作 重新 做 一 遍 。 相 对 于 做 这 些 事情 的 代价 ，Netflix 更 关心 的 
是 ， 开 发 这 些 库 时 可 能 会 引入 的 错误 。 如 果 某 个 新 实现 的 服务 的 容错 处 理 机 制 出 错 ， 其 对 
系统 带 来 严重 影响 的 风险 也 会 增加 。Netflix 使 用 挎 斗 (sidebar) 服务 来 降低 这 种 风险 。 挎 
斗 服 务 会 和 -JVM 进行 本 地 通信 ， 而 为 了 完成 这 种 通信 ， 该 JVM 需要 使 用 某 些 特定 的 第 三 
方 库 。 


有 一 点 需要 注意 的 是 ， 创 建 服务 代码 模板 不 是 某 个 中 心 化 工具 的 职责 ， 也 不 是 指导 (即使 
是 通过 代码 ) 我 们 应 怎样 工作 的 架构 团队 的 职责 。 应 该 通过 合作 的 方式 定义 出 这 些 实 践 ， 
所 以 你 的 团队 也 需要 负责 更 新 这 个 模板 (内 部 开源 的 方式 能 够 很 好 地 完成 这 项 工作 )。 


我 也 见 过 一 个 团队 的 士气 和 生产 力 是 如 何 被 强制 使 用 的 框架 给 毁 掉 的 。 基 于 代码 重用 的 目 
的 ， 越 来 越 多 的 功能 被 加 到 一 个 中 心 化 的 框架 中 ， 直 至 把 这 个 框架 变 成 一 个 不 堪 重 负 的 怪 
兽 。 如 果 你 决定 要 使 用 一 个 裁剪 的 服务 代码 模板 ， 一 定 要 想 清楚 它 的 职责 是 什么 。 理 想 情 
况 下 ， 应 该 可 以 选择 是 否 使 用 服务 代码 模板 ， 但 是 如 果 你 强制 团队 使 用 它 ， 一 定 要 确保 它 
能 够 简化 开发 人 员 的 工作 ， 而 不 是 使 其 复杂 化 。 


你 还 需要 知道 ， 重 用 代码 可 能 引入 的 危险 。 在 重用 代码 的 驱动 下 ， 我 们 可 能 会 引入 服务 之 
间 的 耦合 。 有 一 个 我 接触 过 的 组 织 非 常 担心 这 个 问题 ， 所 以 他 们 会 手动 把 服务 代码 模板 复 
制 到 各 个 服务 中 。 这 样 做 的 问题 是 ， 如 果 核 心服 务 代 码 模板 升级 了 ,那么 需要 花 很 长 时 间 
把 这 些 升 级 应 用 到 整个 系统 中 。 但 相对 于 耦合 的 危险 而 言 ， 这 个 问题 倒 没 那么 严重 。 还 有 
一 些 我 接触 过 的 团队 ， 把 服务 代码 模板 简单 地 做 成 了 一 个 共享 的 库 依 赖 ， 这 时 他 们 就 要 
非常 小 心地 防止 对 DRY (Don't Repeat Yourself， 避 免 重 复 代 码 ) 的 追求 导致 系统 过 度 耦 
合 ! 这 是 一 个 很 微妙 的 话题 ， 所 以 第 4 章 会 做 更 深入 的 讨论 。 


2.7 ”技术 债务 


有 时 候 可 能 无 法 完全 遵守 技术 愿景 ， 比 如 为 了 发 布 一 些 紧急 的 特性 ， 你 可 能 会 包 略 一 些 约 
束 。 其 实 这 仅仅 是 另 一 个 需要 做 的 取舍 而 已 。 我 们 的 技术 愿景 有 其 本 身 的 道理 ， 所 以 偏离 
了 这 个 愿景 短期 可 能 会 带 来 利益 ， 但 是 长 期 来 看 是 要 付出 代价 的 。 可 以 使 用 技术 债务 的 概 
念 来 帮助 我 们 理解 这 个 取舍 ， 就 像 在 真实 世界 中 和 欠 的 债务 需要 偿还 一 样 ， 累 积 的 技术 债务 
也 是 如 此 。 


不 光 走 捷径 会 引入 技术 债务 。 有 时 候 系 统 的 目标 会 发 生 改 变 ， 并 且 与 现 有 的 实现 不 符 ， 这 
种 情况 也 会 产生 技术 债务 。 


架构 师 的 职责 就 是 从 更 高 的 层次 出 发 ， 理 解 如 何 做 权衡 。 理 解 债务 的 层次 及 其 对 系统 的 影 
响 非常 重要 。 对 于 某 些 组 织 来 说 ， 架 构 师 应 该 能 够 提供 一 些 温 和 的 指导 ， 然 后 让 团队 自行 
决定 如 何 偿还 这 些 技术 债务 。 而 其 他 的 组 织 就 需要 更 加 结构 化 的 方式 ， 比 如 维护 一 个 债务 
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列表 ， 并 且 定 期 回顾 。 


2.8 例外 管理 


原则 和 实践 可 以 指导 我 们 如 何 构建 系统 。 那 么 ， 如 果 系 统 偏离 了 这 些 指导 又 会 发 生 什么 
呢 ? 有 时 候 我 们 会 决定 针对 某 个 规则 破 一 次 例 ， 然 后 把 它 记 录 下 来 。 如 果 这 样 的 例外 出 
现 了 很 多 次 ， 就 可 以 通过 修改 原则 和 实践 的 方式 把 我 们 的 理解 固化 下 来 。 举 个 例子 ， 可 
能 我 们 有 一 个 实践 论述 应 该 总 是 使 用 MySQL 做 数据 存储 ， 但 是 后 来 有 足够 的 证 明 表 明 在 
海量 存储 的 场景 下 应 使 用 Cassandra， 这 时 就 可 以 对 实践 进行 修改 :“ 在 大 多 数 场景 下 使 用 
MySQL 做 存储 ， 如 果 是 数据 快速 增长 的 场景 ， 可 以 使 用 Cassandra。 


在 这 里 我 觉得 有 必要 重申 一 下 : 每 个 组 织 都 是 不 同 的 。 我 曾经 合作 过 的 某 些 公司 有 高 度 自 
治 的 团队 ， 他 们 也 得 到 公司 足够 的 信任 。 对 于 这 种 情况 ， 通 常 原则 都 是 很 轻 量 级 的 〈 例 外 
管理 可 能 会 完全 消失 ， 或 者 大 大 减少 )。 有 些 组 织 结构 化 较 强 ， 开 发 人 员 拥有 较 小 的 自由 
度 。 这 种 情况 下 ， 通 过 例外 管理 来 保证 规则 的 合理 性 就 非常 重要 了 。 现 实 中 的 情况 是 多 种 
多 样 的 ， 但 我 个 人 非常 支持 使 用 拥有 更 好 自治 性 的 微服 务 团 队 ， 他 们 有 更 大 的 自由 度 来 解 
决 问题 。 如 果 你 所 在 的 组 织 对 开发 人 员 有 非常 多 的 限制 ， 那 么 微服 务 可 能 并 不 适合 你 。 


2.9 集中 治理 和 领导 


架构 师 的 部 分 职责 是 治理 。 那 么 治理 又 是 什么 意思 呢 ? COBIT (Control Objectives for 
Information and Related Technology， 信 息 和 相关 技术 的 控制 目标 ) 给 出 了 一 个 很 好 的 定义 : 


治理 通过 评估 干系 人 的 需求 、 当 前 情况 及 下 一 步 的 可 能 性 来 确保 企业 目标 的 达成 ， 
通过 排 优先 级 和 做 决策 来 设 定 方向 。 对 于 已 经 达成 一 致 的 方向 和 目标 进行 监督 。 


——COBILS 


在 IT 的 上 下 文中 有 很 多 事情 需要 治理 ， 而 架构 师 会 承担 技术 治理 这 部 分 的 职责 。 如 果 说 ， 
架构 师 的 一 个 职责 是 确保 有 一 个 技术 愿景 ， 那 么 治理 就 是 要 确保 我 们 构建 的 系统 符合 这 个 
愿景 ， 而 且 在 需要 的 时 候 还 应 对 愿景 进行 演化 。 


架构 师 会 对 很 多 事情 负责 。 他 们 需要 确保 有 一 组 可 以 指导 开发 的 原则 ， 并 且 这 些 原则 要 与 
组 织 的 战略 相符 。 他 们 还 需要 确保 ， 以 这 些 原 则 为 指导 衍生 出 来 的 实践 不 会 给 开发 人 员 带 
来 痛苦 。 他 们 需要 了 解 新 技术 ,需要 知道 在 什么 时 候 做 怎样 的 取舍 。 上 述 这 些 职 责 已 经 相 
当 多 了 ,但 是 他 们 还 需要 让 同事 也 理解 这 些 决 定 和 取舍 ， 并 执行 下 去 。 对 了 ， 还 有 前 面 提 
到 的 : 他 们 还 需要 花 时 间 和 团队 一 起 工作 ， 甚 至 是 编码 ， 从 而 了 解 所 做 的 决定 对 团队 造成 
了 怎样 的 影响 。 


要 求 很 高 ， 是 吗 ? 没 错 。 但 是 我 坚定 地 认为 他 们 不 应 该 独自 做 这 些 事情 ， 可 以 由 一 个 治理 
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小 组 来 做 这 个 工作 ， 并 确定 愿景 。 


一 般 来 讲 ， 治 理 是 一 个 小 组 活动 。 它 可 以 是 与 一 个 足够 小 的 团队 进行 非 正式 聊天 ， 也 可 以 
是 在 比较 大 的 范围 内 ， 与 一 个 有 着 正式 成 员 的 小 组 进行 结构 化 例会 。 在 这 些 会 议 上 ， 可 以 
讨论 前 面 提 到 的 那些 原则 ， 有 必要 的 话 也 可 以 对 其 进行 修改 。 这 个 小 组 应 该 由 技术 专家 领 
导 ， 并 且 要 有 一 线 人 员 的 参与 。 这 个 小 组 也 应 该 负责 跟踪 和 管理 技术 风险 。 


我 很 喜欢 的 一 种 模式 是 ， 由 架构 师 领 导 这 个 小 组 ， 但 是 每 个 交付 团队 都 有 人 参加 。 架 构 师 
负责 确保 该 组 织 的 正常 运作 ， 整 个 小 组 都 要 对 治理 负责 。 这 样 职责 就 得 到 了 分 担 ， 并 且 保 
证 有 来 自 高 层 的 支持 。 这 也 可 以 保证 信息 从 开发 团队 顺畅 地 流入 这 个 小 组 ， 从 而 保证 小 组 
做 出 更 合理 的 决定 。 


有 时 候 架 构 师 可 能 不 认同 小 组 做 的 决定 ， 这 时 应 该 怎么 办 ? 我 曾经 面 对 过 这 样 的 场景 ， 我 
认为 这 是 架构 师 需要 面 对 的 最 富有 挑战 性 的 场景 之 一 。 事 实 上 ， 大 多 数 情况 下 我 会 认同 小 
组 的 决定 。 我 曾经 尝试 说 服 大 家 ， 但 事实 证 明 这 很 难 做 到 。 一 个 小 组 通常 会 比 单个 人 更 加 
聪明 ， 而 且 我 也 不 止 一 次 被 证 明 是 错误 的 ! 如 果 你 给 一 个 小 组 权力 去 做 决定 ， 但 在 最 后 又 
忽略 了 这 个 决定 ， 那 这 个 小 组 就 毫 无 意义 可 言 了 。 有 时 候 我 也 会 对 小 组 施加 影响 。 那 么 我 
为 什么 这 么 做 ， 我 会 在 什么 时 候 做 ， 又 会 怎么 说 呢 ? 


类 比 一 下 教 小 孩儿 骑 自 行车 的 过 程 。 你 没 法 替代 他 们 去 骑 车 。 你 会 看 着 他 们 摇 播 晃 晃 地 前 
行 ， 但是， 如 果 每 次 你 看 到 他 们 要 跌倒 就 上 去 扶 一 把 ， 他 们 永远 都 学 不 会 。 而 且 无 论 如 
何 ， 他 们 真正 跌倒 的 次 数 会 比 你 想象 的 要 少 ! 但 是 ， 如 果 他 们 马上 就 要 驶 和 人 车流 繁忙 的 大 
马路 ， 或 者 附近 的 鸭子 池塘 ， 你 就 必须 站 出 来 了 。 类 似 地 ， 作 为 一 名 架构 师 ， 你 必须 要 在 
困 队 驶 向 类 似 鸭 子 池 塘 这 样 的 地 方 时 抓紧 他 们 。 还 有 一 点 要 注意 的 是 ， 即 使 你 很 清楚 什么 
是 对 的 ， 然 后 尝试 去 控制 团队 ， 也 可 能 会 破坏 和 团队 的 关系 ， 并 且 会 使 团队 感觉 他 们 没有 
话语 权 。 有 时 候 按 照 一 个 你 不 同意 的 决定 走 下 去 反而 是 正确 的 ， 知 道 什么 时 候 可 以 这 么 
做 ， 什 么 时 候 不 要 这 么 做 是 很 困难 的 ， 但 有 时 也 很 关键 。 


2.10 建设 团队 


对 于 一 个 系统 技术 愿景 的 主要 负责 人 来 说 ， 执 行 愿景 不 仅仅 等 同 于 做 技术 决定 ， 和 你 一 起 
工作 的 那些 人 自然 会 做 这 些 决定 。 对 于 技术 领导 人 来 说 ， 更 重要 的 事情 是 帮助 你 的 队友 成 
长 ， 帮 助 他 们 理解 这 个 愿景 ， 并 保证 他 们 可 以 积极 地 参与 到 愿景 的 实现 和 调整 中 来 。 


帮助 别人 成 长 的 形式 有 很 多 种 ， 其 中 大 部 分 都 超出 了 本 书 的 范围 。 微 服务 架构 本 身 能 够 提 
供 一 种 很 好 的 形式 。 在 单 块 系统 中 ， 人 们 为 某 些 事情 负责 的 机 会 非常 有 限 ， 而 在 微服 务 架 
构 中 存在 多 个 自治 的 代码 库 ， 每 个 代码 库 都 有 着 自己 独立 的 生命 周期 ， 这 就 给 更 多 人 提供 
了 对 单个 服务 负责 的 机 会 ， 而 当 这 些 人 在 单个 服务 上 面 得 到 足够 锻炼 之 后 ， 就 可 以 给 他 们 
更 多 的 责任 ， 从 而 帮助 他 们 逐步 达成 自己 的 职业 目标 ， 同 时 通过 分 担 职责 也 可 以 防止 某 一 





个 人 的 负担 过 重 。 


我 坚定 地 相信 ， 伟 大 的 软件 来 自 于 伟大 的 人 。 所 以 如 果 你 只 担心 技术 问题 ， 那 么 悉 怕 你 看 
到 的 问题 远 远 不 及 一 半 。 


2.11 小结 
总 结 一 下 本 章 ， 下 面 是 我 认为 的 一 个 演进 式 架 构 师 应 该 承担 的 职责 。 
。 愿景 
确保 在 系统 级 有 一 个 经 过 充分 沟通 的 技术 愿景 ， 这 个 愿景 应 该 可 以 帮助 你 满足 客户 和 组 
织 的 需求 。 
同 理 心 
理解 你 所 做 的 决定 对 客户 和 同事 带 来 的 影响 。 


。 合作 
和 尽量 多 的 同事 进行 沟通 ， 从 而 更 好 地 对 愿景 进行 定义 、 修 订 及 执行 。 
。 适应 性 
确保 在 你 的 客户 和 组 织 需要 的 时 候 调 整 技术 愿景 。 
。 自治 性 
在 标准 化 和 团队 自治 之 间 寻 找 一 个 正确 的 平衡 点 。 
。 治理 
确保 系统 按照 技术 愿景 的 要 求实 现 。 
演进 式 架 构 师 应 该 理解 ， 成 功 要 靠 不 断 地 取舍 来 实现 。 总 会 存在 一 些 原因 需要 你 改变 工作 
的 方式 ,但 是 具体 做 哪些 改变 就 只 能 依赖 于 自己 的 经 验 了 。 而 优化 地 固守 自己 的 想法 无 疑 
是 最 粳 料 的 做 法 。 


虽然 本 章 的 大 部 分 建议 对 任何 一 个 系统 架构 师 来 说 都 适用 ， 但 是 在 微服 务 系统 中 ， 架 构 师 
需要 做 更 多 的 决定 ， 因 此 ， 能 更 好 地 平衡 这 些 取舍 是 非常 关键 的 。 


在 下 一 章 中 ， 让 我 们 带 着 对 架构 师 全 新 的 认识 来 考虑 如 何 寻找 微服 务 之 间 正 确 的 边界 。 
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第 3 章 


如 何 建 模 服务 





“对 手 的 论证 让 我 想到 了 异 教徒 。 当 别 人 问 异 教徒 世界 由 什么 支撑 时 ， 他 说 :“ 一 
只 乌龟-” 别 人 再 问 他 那 乌龟 又 由 什么 支撑 呢 ? 他 回答 :“ 另 一 只 乌龟 。” 





Joseph Barker ( 1854 ) 


现在 你 已 经 知道 什么 是 微服 务 了 ， 希 望 你 对 它 的 主要 优点 也 有 所 理解 。 你 可 能 已 经 迫 不 及 
待 地 想 要 实现 它 了 ， 对 吗 ? 但 是 从 何 做 起 呢 ? 在 本 章 中 ,我们 会 讨论 如 何 确定 服务 之 间 的 
边界 ， 以 期 最 大 化 微服 务 的 好 处 ， 避 开 它 的 劣势 。 但 是 ， 首 先 我 们 需要 有 一 个 产品 作为 讨 
论 的 载体 。 


3.1 MusicCorp 简 介 


讨论 想法 的 书 最 好 有 例子 作为 辅助 。 我 会 尽 可 能 跟 大 家 分 享 真实 的 故事 ， 但 是 我 发 现 ， 其 
实 使 用 一 个 虚构 的 领域 也 挺 有 用 的 。 在 本 书 的 剩余 部 分 ， 我 们 会 不 断 地 回 到 这 个 领域 来 看 
看 微服 务 架构 对 其 产生 了 什么 样 的 影响 。 


让 我 们 把 注意 力 转移 到 前 沿 在 线 零售 商 MusicCorp 上 来 。MusicCorp 最 初 是 实体 店 经 
营 , 但 是 在 唱片 生意 跌 入 谷底 之 后 ， 他 们 开始 把 更 多 的 注意 力 放 在 了 网 上 。 该 公司 有 一 
个 网 站 ， 他 们 认为 现在 是 时 候 把 在 线 业务 的 投入 翻 们 了 。 毕 竞 ，iPod 只 是 县 花 一 现 的 东 
西 (Zune 明显 要 好 得 多 )， 音 乐 迷 们 还 是 很 希望 有 人 能 够 把 CD 送 上 门 。 质 量 比方 便 更 重 
要 ， 对 吧 ? 说 到 这 儿 ， 有 一 个 问题 我 一 直 不 太 明白 : 人 们 经 常 提 起 的 Spotify (https://www. 
spotify.com/) 是 干什么 的 ， 是 给 年 轻 人 做 皮肤 护理 的 吗 ? 
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尽管 有 点 落后 于 时 代 了 ， 但 是 MusicCorp 还 是 有 很 大 的 野心 。 幸 运 的 是 ， 它 认为 赢得 世界 
的 方法 是 ， 保 证 自己 很 容易 对 应 用 进行 修改 。 这 正 是 微服 务 的 用 武之 地 ! 


3.2 ”什么 样 的 服务 是 好 服务 


在 MusicCorp 的 团队 为 了 把 八 轨 带 (eight track tape) 递送 到 所 有 人 手中 而 开始 辛苦 工作 、 
创建 一 个 又 一 个 的 服务 之 前 ， 让 我 们 先 缓 缓 ， 讨 论 一 些 很 重要 的 基本 原则 。 什 么 是 好 的 服 
务 ? 如 果 你 曾经 尝试 过 SOA 并 且 失 败 了 ， 大 概 就 知道 我 下 一 步 要 说 什么 了 。 不 过 万 一 你 
没 那么 幸运 (不 幸 )， 我 希望 你 专注 在 两 个 重要 的 概念 上 : 松井 合 和 高 内 聚 。 在 本 书 的 剩 
余部 分 ， 我 们 会 讨论 更 多 的 实践 和 细节 ， 因 为 如 果 这 两 点 做 不 到 ， 那 么 微服 务 也 就 没什么 
价值 了 。 


这 两 个 概念 在 不 同 的 上 下 文中 被 大 量 使 用 ， 尤 其 是 在 面向 对 象 编程 中 ， 所 以 ， 我 们 先 讨论 
一 下 这 两 个 概念 在 微服 务 中 是 什么 含义 。 


3.2.1 松 耦 合 


如 果 做 到 了 服务 之 间 的 松 耦 合 ， 那 么 修改 一 个 服务 就 不 需要 修改 另 一 个 服务 。 使 用 微服 务 
最 重要 的 一 点 是 ， 能 够 独立 修改 及 部 署 单个 服务 而 不 需要 修改 系统 的 其 他 部 分 ， 这 真 的 非 
常 重要 。 


什么 会 导致 紧 看 合 呢 ? 一 个 典型 的 错误 是 ， 使 用 紧 耦 合 的 方式 做 服务 之 间 的 集成 ， 从 而 使 
得 一 个 服务 的 修改 会 致使 其 消费 者 的 修改 。 第 4 章 会 进一步 讨论 如 何 避免 这 种 问题 。 


一 个 松 看 合 的 服务 应 该 尽 可 能 少 地 知道 与 之 协作 的 那些 服务 的 信息 。 这 也 意味 着 ， 应 该 限 
制 两 个 服务 之 间 不 同调 用 形式 的 数量 ， 因 为 除了 潜在 的 性 能 问题 之 外 ， 过 度 的 通信 可 能 会 
导致 紧 耦 合 。 


3.2.2 高 内 聚 

我 们 希望 把 相关 的 行为 聚集 在 一 起 ， 把 不 相关 的 行为 放 在 别处 。 为 什么 呢 ? 因为 如 果 你 
改变 某 个 行为 的 话 ， 最 好 能 够 只 在 一 个 地 方 进行 修改 ， 然 后 就 可 以 尽快 地 发 布 。 如 果 需 要 
在 很 多 不 同 的 地 方 做 这 些 人 和 修改， 那么 可 能 就 需要 同时 发 布 多 个 微服 务 才能 交付 这 个 功能 。 
在 多 个 不 同 的 地 方 进行 修改 会 很 慢 ， 同 时 部 署 多 个 服务 风险 也 很 高 ， 这 两 者 都 是 我 们 想 要 
避免 的 。 


所 以 ， 找 到 问题 域 的 边界 就 可 以 确保 相关 的 行为 能 放 在 同一 个 地 方 ， 并 且 它 们 会 和 其 他 边 
界 以 尽量 松 耦 合 的 形式 进行 通信 。 
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3.3 限界 上 下 文 


Eric Evans 的 《领域 驱动 设计 》 一 书 主要 专注 如 何 对 现实 世界 的 领域 进行 建 模 。 该 书 中 有 
很 多 非常 棒 的 想法 ， 比 如 通用 语言 、 仓 储 、 抽 象 等 。 其 中 Evans 引入 的 一 个 很 重要 的 概念 
是 限界 上 下 文 《bounded context) ， 刚 听 到 这 个 概念 的 时 候 ， 我 深 受 启发 。 他 认为 任何 一 个 
给 定 的 领域 都 包含 多 个 限界 上 下 文 ， 每 个 限界 上 下 文中 的 东西 (Eric 更 常 使 用 模型 这 个 词 ， 
应 该 比 “东西 ”好 得 多 ) 分 成 两 部 分 ， 一 部 分 不 需要 与 外 部 通信 ， 另 一 部 分 则 需要 。 每 个 
上 下 文 都 有 明确 的 接口 ， 该 接口 决定 了 它 会 暴露 哪些 模型 给 其 他 的 上 下 文 。 


另 一 个 我 比较 喜欢 的 限界 上 下 文 的 定义 是 :“ 一 个 由 显 式 边界 限定 的 特定 职责 。” (http:// 
blog.sapiensworks.com/post/2012/04/17/DDD-The-Bounded-Context-Explained.aspx) 如 果 你 
想 要 从 一 个 限界 上 下 文中 获取 信息 ， 或 者 向 其 发 起 请 求 ， 需 要 使 用 模型 和 它 的 显 式 边界 进 
行 通信 。 在 这 本 书 中 ，Evans 使 用 细胞 作为 比喻 :“ 细 胞 之 所 以 会 存在 ， 是 因为 细胞 膜 定 义 
了 什么 在 细胞 内 ， 什 么 在 细胞 外 ， 并 且 确 定 了 什么 物质 可 以 通过 细胞 膜 。 


让 我 们 回 到 MusicCorp 的 业务 上 来 ， 其 业务 领域 涉及 运营 的 方方面面 。 它 涵盖 了 从 仓储 到 
前 台 、 从 财务 到 订单 的 所 有 元 素 。 这 些 元 素 就 是 领域 ， 尽管 我 们 不 一 定 要 对 所 有 的 元 素 进 
行 建 模 。 让 我 们 尝试 在 领域 中 寻找 Evans 所 提 到 的 那些 限界 上 下 文 。 在 MusicCorp 中 ， 仓 
库 是 一 个 很 热 曾 的 场所 ， 它 负责 管理 发 出 去 的 订单 (及 退回 的 剩余 产品 )， 接 收 新 到 的 库 
存 ， 保 证 多 个 铲 车 能 同时 正常 运行 等 。 别 的 地 方 ， 比 如 财务 部 门 就 没 那 么 好 玩 了 ， 但 它 在 
组 织 内 部 还 是 非常 重要 的 。 财 务 部 的 员工 负责 管理 工资 单 和 公司 的 账户 ， 并 生成 重要 的 报 
表 ， 这 些 报表 的 数量 相当 大 。 他 们 很 可 能 还 有 一 些 有 趣 的 桌面 玩具 。 


3.3.1 共享 的 隐藏 模型 

对 于 MusicCorp 来 说 ， 财 务 部 门 和 仓库 就 可 以 是 两 个 独立 的 限界 上 下 文 。 它 们 都 有 明确 的 
对 外 接口 (在 存货 报告 、 工 资 单 等 方面 )， 也 都 有 着 只 需要 自己 知道 的 一 些 细节 ( 铲 车 、 
计算 器 )。 


财务 部 门 不 需要 知道 仓库 的 内 部 细节 。 但 它 确实 也 需要 知道 一 些 事 情 ， 比 如 ， 需 要 知道 库 
存 水 平 以 便于 更 新 账户 。 图 3-1 展示 了 一 个 上 下 文 图 表示 例 。 可 以 看 到 其 中 包含 了 仓库 的 
内 部 概念 ， 比 如 订单 提取 员 、 货 架 等 。 类 似 地 ， 公 司 的 总 账 是 财务 部 必 备 的 一 部 分 ， 但 是 
\ 会 对 外 共享 。 
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共享 模型 














图 3-1: 财务 部 门 和 仓库 之 间 共享 的 模型 


为 了 算出 公司 的 估 值 ， 财 务 部 的 雇员 需要 库存 信息 ， 所 以 库存 项 就 变 成 了 两 个 上 下 文 之 间 
的 共享 模型 。 然 而 ， 我 们 不 会 宣 目 地 把 库存 项 在 仓库 上 下 文中 的 所 有 内 容 都 暴露 出 去 。 比 
如 ， 尽 管 在 仓库 内 部 有 相应 的 模型 来 表示 库存 项 ， 但 是 我 们 不 会 直接 把 这 个 模型 暴露 出 
去 。 也 就 是 对 该 模型 来 说 ， 存 在 内 部 和 外 部 两 种 表示 方式 。 很 多 情况 下 ， 这 都 会 导致 是 否 
要 采用 REST 的 讨论 。 第 4 章 会 对 REST 做 更 多 的 讨论 。 


有 时 候 ， 同 一 个 名 字 在 不 同 的 上 下 文中 有 着 完全 不 同 的 含义 。 比 如 ， 退 货 表示 的 是 客户 退 
回 的 一 些 东 西 。 在 客户 的 上 下 文中 ， 退 货 意 味 着 打印 运送 标签 、 寄 送 包 圳 ， 然 后 等 待 退 
款 。 在 仓库 的 上 下 文中 ， 退 货 表 示 的 是 一 个 即将 到 来 的 包 训 ， 而 且 这 个 包 庄 会 重新 人 库 。 
退货 这 个 概念 会 与 将 要 执行 的 任务 相关 ， 比 如 我 们 可 能 会 发 起 一 个 重新 入 库 的 请 求 。 这 个 
退货 的 共享 模型 会 在 多 个 不 同 的 进程 中 使 用 ， 并 且 在 每 个 限界 上 下 文中 都 会 存在 相应 的 实 
体 ， 不过， 这 些 实体 仅仅 是 在 每 个 上 下 文 的 内 部 表示 而 已 。 


3.3.2 ”模块 和 服务 

明白 应 该 共享 特定 的 模型 ， 而 不 应 该 共享 内 部 表示 这 个 道理 之 后 ， 就 可 以 避免 洲 在 的 紧 灶 
合 〈 即 我 们 不 希望 成 为 的 样子 ) 风险 。 我 们 还 识别 出 了 领域 内 的 一 些 边界 ， 边 界 内 部 是 相 
关 性 比较 高 的 业务 功能 ， 从 而 得 到 高 内 聚 。 这 些 限界 上 下 文 可 以 很 好 地 形成 组 合 边界 。 


就 像 在 第 1 章 中 讨论 过 的 ， 在 同一 个 进程 内 使 用 模块 来 减少 彼此 之 间 的 耦合 也 是 一 种 选 
择 。 刚 开始 开发 一 个 代码 库 的 时 候 ， 这 可 能 是 比较 好 的 办 法 。 所 以 一 旦 你 发 现 了 领域 内 部 
的 限界 上 下 文 ， 一 定 要 使 用 模块 对 其 进行 建 模 ， 同 时 使 用 共享 和 隐藏 模型 。 


这 些 模块 边界 就 可 以 成 为 绝 佳 的 征服 务 候选 。 一 般 来 讲 ， 微 服务 应 该 清晰 地 和 限界 上 下 文 
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保持 一 致 。 熟 练 之 后 ， 就 可 以 省 掉 在 单 块 系统 中 先 使 用 模块 的 这 个 步骤 ， 而 直接 使 用 单独 
的 服务 。 然 而 对 于 一 个 新 系统 而 言 ， 可 以 先 使 用 一 段 时 间 的 单 块 系统 ， 因 为 如 果 服 务 之 间 
的 边界 搞 错 了 ， 后 面 修复 的 代价 会 很 大 。 所 以 最 好 能 够 等 到 系统 稳定 下 来 之 后 ， 再 确定 把 
哪些 东西 作为 一 个 服务 划分 出 去 。 第 5 章 会 对 此 做 更 多 讨论 ， 同 时 也 会 介绍 一 些 技术 来 把 
已 有 的 单 块 系统 划分 成 微服 务 。 


所 以 ， 如 果 服 务 边界 和 领域 的 限界 上 下 文 能 保持 一 致 ， 并 且 微 服务 可 以 很 好 地 表示 这 些 限 
界 上 下 文 的 话 ， 那 么 恭喜 你 ， 你 跨 出 了 走向 高 内 聚 低 耦 合 的 微服 务 架构 的 第 一 步 。 


3.3.3 ”过 早 划分 

在 ThoughtWorks， 我 们 也 经 历 过 一 些 由 过 早 进行 服务 划分 带 来 的 挑战 。 除 了 咨询 业务 之 
外 ， 我 们 也 做 过 一 些 产 品 。 基 中 一 个 产品 叫 作 SnapCI， 它 是 一 个 持续 集成 和 持续 交付 的 云 
平台 (第 6 章 会 进一步 讨论 这 些 概念 )。 该 产品 团队 之 前 做 了 另 一 个 类 似 的 产品 : Go-CD。 
现在 Go-CD 是 一 个 开源 的 持续 将 会 工具 ， 与 SnapCI 不 同 ,， 该 工具 可 以 部 署 在 本 地 。 





尽管 在 SnapCI 和 Go-CD 之 间 有 一 些 代码 重用 ， 但 SnapCI 最 终 成 为 了 一 个 全 新 的 代码 库 。 
之 前 在 CD 工具 领域 上 的 经 验 使 团队 很 有 信心 地 、 快 速 地 识别 边界 ， 并 且 直 接 使 用 微服 务 
的 方式 来 构建 系统 。 


儿 个 月 之 后 ， 我 们 发 现 SnapCI 的 用 例 和 之 前 想 的 有 所 不 同 ， 而 这 些 不 同 足 以 证 明之 前 的 
服务 划分 方式 是 有 问题 的 。 这 导致 了 很 多 跨 服务 的 修改 ， 而 这 些 修改 的 代价 相当 高 。 团 队 
逐渐 又 把 这 些 服务 合并 成 了 一 个 单 块 系统 ， 从 而 给 所 有 人 时 间 去 理解 服务 边界 到 底 应 该 
在 哪 。 一 年 之 后 ， 团 队 识别 了 出 非常 稳定 的 边界 ， 并 据 此 将 这 个 单 块 系统 拆 分 成 多 个 微服 
务 。 当 然 这 并 不 是 我 见 过 的 唯一 一 个 过 早 划 分 的 例子 。 过 早 将 一 个 系统 划分 成 为 微服 务 的 
代价 非常 高 ， 尤 其 是 在 面 对 新 领域 时 。 很 多 时 候 ， 将 一 个 已 有 的 代码 库 划 分 成 微服 务 ， 要 
比 从 头 开始 构建 微服 务 简单 得 多 。 


3.4 业务 功能 


当 你 在 思考 组 织 内 的 限界 上 下 文 时 ， 不 应 该 从 共享 数据 的 角度 来 考虑 ， 而 应 该 从 这 些 上 下 
文 能 够 提供 的 功能 来 考虑 。 比 如 ， 仓 库 的 一 个 功能 是 提供 当前 的 库存 清单 ， 财 务 上 下 文 能 
够 提供 月 末 账 目 或 者 为 一 个 新 招 的 员工 创建 工资 单 。 为 了 实现 这 些 功能 ， 可 能 需要 交换 存 
储 信息 的 模型 ， 但 是 我 见 过 太 多 只 考虑 模型 从 而 导致 贫血 的 、 基 于 CRUD (create，read， 
update，delete) 的 服务 。 所 以 首先 要 问 自己 “这 个 上 下 文 是 做 什么 用 的 "， 然 后 再 考虑 
“ 它 需 要 什么 样 的 数据 ”。 


建 模 服务 时 ， 应 该 将 这 些 功 能 作为 关键 操作 提供 给 其 协作 者 (其 他 服务 )。 





3.5 逐步 划分 上 下 文 


一 开始 你 会 识别 出 一 些 粗 粒 度 的 限界 上 下 文 ， 而 这 些 限界 上 下 文 可 能 又 包含 一 些 嵌 套 的 限 
界 上 下 文 。 举 个 例子 ， 你 可 以 把 仓库 分 解 成 为 不 同 的 部 分 : 订单 处 理 、 库 存 管理 、 货 物 接 
受 等 。 当 考虑 微服 务 的 边界 时 ， 首 先 考 虑 比较 大 的 、 粗 粒度 的 那些 上 下 文 ， 然 后 当 发 现 合 
适 的 缝隙 后 ， 再 进一步 划分 出 那些 租 套 的 上 下 文 。 


我 见 过 有 一 种 做 法 是 ， 使 这 些 嵌 套 的 上 下 文 不 直接 对 外 可 见 。 对 于 外 界 来 说 ， 它 们 用 的 还 
是 仓库 的 功能 ， 但 发 出 的 请 求 其 实 被 透明 地 映射 到 了 两 个 或 者 更 多 的 服务 上 ， 如 图 3-2 所 
示 。 有 时 候 你 会 认为 ， 高 层次 的 限界 上 下 文 不 应 该 被 显 式 地 建 模 成 为 一 个 服务 ， 如 图 3-3 
所 示 ， 也 就 是 说 ， 不 存在 一 个 单独 的 仓库 边界 ， 而 是 把 库存 管理 、 订 单 处 理 和 货物 接收 等 
这 些 服务 分 离开 来 。 










请 求 库存 等 级 











图 3-2: 在 仓库 内 部 使 用 微服 务 表示 说 套 限界 上 下 文 








请 求 库存 等 级 

















图 3-3: 仓库 内 部 的 限界 上 下 文 被 提升 到 顶层 上 下 文 的 层次 


通常 很 难说 哪 种 规则 更 合理 ， 但 是 你 应 该 根据 组 织 结构 来 决定 ， 到 底 是 使 用 藤 套 的 方法 还 
是 完全 分 离 的 方法 。 如 果 订 单 处 理 、 库 存 管理 及 货物 接收 是 由 不 同 的 团队 维护 的 ， 那 么 他 
们 大 概 会 希望 这 些 服 务 都 是 顶层 微服 务 。 另 一 方面 ， 如 果 它 们 都 是 由 一 个 团队 管理 的 ， 那 
么 舱 套 式 结构 会 更 合理 。 其 原因 在 于 ， 组 织 结构 和 软件 架构 会 互相 影响 ， 第 10 章 会 对 此 
做 详细 讨论 。 


另 一 个 倾向 于 册 套 式 方法 的 原因 是 ， 它 可 以 使 得 架构 更 成 块 儿 从 而 更 好 地 测试 。 举 个 例 
子 ， 当 测试 仓库 的 消费 方 服 务 时 ， 不 需要 对 仓库 上 下 文中 的 每 个 服务 进行 打桩 ， 只 需要 专 
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注 于 粗 粒度 的 API 即 可 。 当 考虑 更 大 范围 的 测试 时 ， 这 也 能 够 给 你 一 定 的 单元 隔离 。 比 
如 ， 我 可 以 有 这 样 一 种 端 到 端 测试 ， 该 测试 会 使 用 仓库 上 下 文中 的 所 有 服务 ， 但 其 他 的 所 
有 协作 者 可 以 做 打桩 处 理 。 第 7 章 会 对 测试 和 隔离 做 更 多 讨论 。 


3.6 ”关于 业务 概念 的 沟通 


修改 系统 的 目的 是 为 了 满足 业务 需求 。 我 们 会 修改 面向 客户 的 功能 。 如 果 把 系统 分 解 成 为 
限界 上 下 文 来 表示 领域 的 话 ， 那 么 对 于 某 个 功能 所 要 做 的 修改 ， 就 更 倾向 于 局 限 在 一 个 单 
独 的 微服 务 边界 之 内 。 这 样 就 减 小 了 修改 的 范围 ， 并 能 够 更 快 地 进行 部 署 。 


微服 务 之 间 如 何 就 同一 个 业务 概念 进行 通信 ， 也 是 一 件 很 重要 的 事情 。 基 于 业务 领域 的 软 
件 建 模 不 应 该 止 于 限界 上 下 文 的 概念 。 在 组 织 内 部 共享 的 那些 相同 的 术语 和 想法 ， 也 应 该 
被 反映 到 服务 的 接口 上 。 以 跟 组 织 内 通信 相同 的 方式 ， 来 思考 微服 务 之 间 的 通信 形式 是 非 
常 有 用 的 。 事 实 上 ， 通 信 形 式 在 整个 组 织 范围 内 都 非常 重要 。 


3.7 技术 边界 


服务 被 错误 建 模 会 造成 什么 样 的 影响 ?不 久之 前 ， 我 和 一 些 同事 为 一 个 加 州 的 客户 工作 ， 
帮助 他 们 采用 整洁 代码 实践 及 自动 化 测试 。 一 开始 做 的 事情 比较 简单 ， 比 如 当 注 意 到 有 些 
事情 让 人 很 担忧 的 时 候 ， 对 服务 进行 划分 。 我 不 能 透露 更 多 该 应 用 的 信息 ， 但 可 以 说 的 
是 ， 它 是 一 个 面向 大 众 的 应 用 ， 拥 有 全 球 大 量 用 户 。 


团队 和 系统 开始 增长 。 一 开始 只 包含 一 个 人 的 愿景 ， 现 在 整个 系统 的 功能 和 用 户 越 来 越 
多 。 这 个 组 织 逐 渐 决定 对 团队 进行 扩容 ， 增 加 了 一 个 巴西 团队 来 分 担 一 部 分 工作 。 系 统 
被 划分 成 两 部 分 ， 一 部 分 面向 前 端 ， 该 部 分 不 保存 任何 状态 ， 如 图 3-4 所 示 ; 后 端 部 分 就 
是 一 个 简单 的 数据 存储 ， 通 过 RPC (Remote Procedure Call， 远 程 过 程 调用 ) 来 提供 服务 。 
基本 上 你 可 以 理解 为 ， 把 一 个 代码 库 中 的 仓储 层 变 成 一 个 独立 的 服务 。 








外 部 请 求 


数据 库 








CL 


图 3-4; 基于 技术 接 乡 划 分 的 服务 边界 
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后 来 发 现 ， 需 要 频繁 地 同时 修改 两 个 服务 。 两 个 服务 都 使 用 偏 底层 的 、RPC 风格 的 方法 调 
用 ， 而 这 是 非常 不 稳定 的 〈 第 4 章 会 就 此 做 进一步 讨论 )。 这 个 服务 接口 也 很 繁琐 ， 会 导 
致 性 能 问题 。 这 就 导致 了 对 RPC 批 处 理 的 需求 。 我 把 这 种 架构 称 为 洋 蓝 架 构 ， 因 为 它 有 很 
多 层 ， 而 且 当 纵 切 这 些 层 次 时 ， 我 只 想 哭 。 


基于 这 些 事实 可 以 看 出 ， 前 面 提 到 的 按照 地 理 位 置 或 者 组 织 结构 对 单 块 系统 进行 划分 是 很 
合理 的 ， 第 10 章 会 做 进一步 讨论 。 然 而 上 面 这 个 例子 ， 并 不 是 按照 业务 进行 的 垂直 划分 ， 
而 是 把 原来 进程 内 部 的 API 水 平 划 分 了 出 去 。 


按照 技术 接 颖 对 服务 边界 进行 建 模 也 并 不 总 是 错误 的 。 比 如 ， 我 见 过 当 一 个 组 织 想 要 达到 
某 个 性 能 目标 时 ， 这 种 划分 方式 反而 更 合理 。 然 而 一 般 来 讲 ， 这 不 应 该 成 为 你 考虑 的 首要 
方式 


3.8 小 结 


在 本 章 中 ， 你 学 到 了 什么 是 好 的 服务 ， 以 及 如 何在 问题 空间 中 寻找 能 达到 高 内 聚 低 耦 合 的 
接 缝 。 限 界 上 下 文 是 寻找 这 些 接 颖 的 一 个 非常 重要 的 工具 ， 通 过 将 微服 务 与 这 些 边 界 相 匹 
配 ， 可 以 保证 最 终 的 系统 能 够 得 到 微服 务 提供 的 所 有 好 处 。 我 们 也 大 概 了 解 了 一 些 进一步 
划分 微服 务 的 方法 ， 后 面 的 章节 会 深入 讨论 这 个 话题 。 本 章 还 引入 了 MusicCorp ， 一 个 会 
贯穿 本 书 剩余 部 分 的 示例 领域 。 


Eric Evans 在 《领域 驱动 设计 》 中 提 到 的 概念 对 于 寻找 明显 的 服务 边界 来 说 非常 有 用 。 在 
本 章 中 我 只 提 到 了 其 中 的 一 小 部 分 。 我 推荐 你 看 一 看 Vaughn Vernon 的 《实现 领域 驱动 设 
计 》， 它 能 够 帮助 你 理解 如 何 实践 这 些 方法 。 


本 章 讨论 的 内 容 比 较 宽 泛 ， 下 一 章 的 内 容 技术 性 会 更 强 。 在 实现 服务 间接 口 方面 存在 很 多 
的 陷阱 ， 从 而 会 引入 各 种 各 样 的 麻烦 。 如 果 不 想 系统 乱 成 一 团 麻 ， 就 必须 深入 讨论 一 下 该 
话题 。 
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在 我 看 来 ， 集 成 是 微服 务 相关 技术 中 最 重要 的 一 个 。 做 得 好 的 话 ， 你 的 微服 务 可 以 保持 自 
治 性 ， 你 也 可 以 独立 地 修改 和 发 布 它们 * 但 做 得 不 好 的 话 会 带 来 灾难 。 和 希望 本 章 能 够 帮助 
尔 在 微服 务 之 旅 中 ， 和 避免 曾 经 在 SOA 中 遇 到 的 那些 问题 。 


4.1 寻找 理想 的 集成 技术 


微服 务 之 间 通 信 方 式 的 选择 非常 多 样 化， 但 哪个 是 正确 的 呢 9 SOAP ? XML-RPC ? 
REST ? Protocol Buffers ?后 面 会 逐一 讨论 ， 但 是 在 此 之 前 需要 考虑 的 是 ， 我 们 到 底 希 望 
从 这 些 技术 中 得 到 什么 。 


4.1.1 避免 破坏 性 修改 

有 时 候 ， 对 某 个 服务 做 的 一 些 修 改 会 导致 该 服务 的 销 费 方 也 随 之 发 生 改 变 。 后 面 会 讨论 如 
何 处 理 这 种 情形 ， 但 是 我 们 希望 选用 的 技术 可 以 尽量 避免 这 种 情况 的 发 生 。 比 如 ， 如 果 一 
个 微服 务 在 一 个 响应 中 添加 了 一 个 字段 ， 那 么 已 有 的 消费 方 不 应 该 受到 影响 。 


4.1.2 保证 API 的 技术 无 关 性 

如 果 你 从 事 IT 业已 经 超过 15 分 钟 ， 不 用 我 说 也 应 该 知道 ， 你 工作 的 领域 在 不 断 地 变化 ， 
而 唯一 不 变 的 就 是 变化 。 新 的 工具 、 框 架 、 语 言 层 出 不 穷 ， 它 们 使 我 们 的 工作 更 高 效 。 现 
在 你 在 做 .NET， 那 一 年 之 后 呢 ， 或 者 五 年 之 后 呢 ? 说 不 定 什么 时 候 ， 你 会 想 要 尝试 一 个 
能 够 让 你 的 工作 更 有 效率 的 技术 栈 。 
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我 很 喜欢 保持 开放 的 心态 ， 这 也 正 是 我 喜欢 微服 务 的 原因 。 因 此 我 认为 ， 保 证 微服 务 之 间 
通信 方式 的 技术 无 关 性 是 非常 重要 的 。 这 就 意味 着 ， 不 应 该 选择 那 种 对 微服 务 的 具体 实现 
技术 有 限制 的 集成 方式 。 


4.1.3 使 你 的 服务 易于 消费 方 使 用 

消费 方 应 该 能 很 容易 地 使 用 我 们 的 服务 。 如 果 消 费 方 使 用 该 服务 比 登 天 还 难 ， 那 么 无 论 访 
微服 务 多 漂亮 都 没有 任何 意义 。 所 以 让 我 们 考虑 一 下 ， 如 何 让 消费 方 简便 地 使 用 美妙 的 新 
服务 。 理 想 情况 下 ， 消 费 方 应 该 可 以 使 用 任何 技术 来 实现 ， 从 另 一 方面 来 说 ， 提 供 一 个 客 
户 端 库 也 可 以 简化 消费 方 的 使 用 。 但 是 通常 这 种 库 与 其 他 我 们 想 要 得 到 的 东西 不 可 兼 得 。 
举 个 例子 ， 使 用 客户 端 库 对 于 消费 方 来 说 很 方便 ， 但 是 会 造成 而 合 的 增加 。 


4.1.4 隐藏 内 部 实现 细节 

我 们 不 希望 消费 方 与 服务 的 内 部 实现 细节 绑 定 在 一 起 ， 因 为 这 会 增加 厅 合 。 与 细节 绑 定 意 
味 着 ， 如 果 想 要 改变 服务 内 部 的 一 些 实现 ， 消 费 方 就 需要 跟着 做 出 修改 。 这 会 增加 修改 的 
成 本 ， 而 这 恰恰 是 我 们 想 要 避免 的 。 这 也 会 导致 为 了 避免 销 费 方 的 修改 而 尽量 少 地 对 服务 
本 身 进 行 修改 ， 而 这 会 导致 服务 内 部 技术 债 的 增加 。 所 以 ， 所 有 倾向 于 暴露 内 部 实现 细节 
的 技术 都 不 应 该 被 采用 。 


4.2 为 用 户 创建 接口 


既然 现在 有 了 一 些 有 关 如 何 选择 服务 间 集 成 技术 的 不 错 的 指导 原则 ， 那 么 就 来 看 看 最 常用 
的 技术 有 哪些 ， 以 及 哪个 最 合适 。 为 了 帮助 思考 ， 让 我 们 从 MusicCorp 中 选择 一 个 真实 的 
例子 。 


创建 客户 这 个 业务 ， 乍 一 看 似乎 就 是 简单 的 CRUD 操作 ,但 对 于 大 多 数 系统 来 说 并 不 止 这 


些 。 添 加 新 客户 可 能 会 触发 一 个 新 的 流程 ， 比 如 进行 付 账 设置 、 发 送 欢 迎 邮 件 等 。 而 且 修 
改 或 者 删除 客户 也 可 能 会 触发 其 他 的 业务 流程 。 


知道 了 这 些 信息 之 后 ， 在 MusicCorp 系统 中 对 客户 的 处 理 方式 可 能 就 需要 有 所 不 同 了 。 


4.3 共享 数据 库 

目前 为 止 ， 我 和 同事 在 业界 所 见 到 的 最 常见 的 集成 形式 就 是 数据 库 集成 。 使 用 这 种 方式 
时 ， 如 果 其 他 服务 想 要 从 一 个 服务 获取 信息 ， 可 以 直接 访问 数据 库 。 如 果 想 要 修改 ， 也 可 
以 直接 在 数据 库 中 修改 。 这 种 方式 看 起 来 非常 简单 ， 而 且 可 能 是 最 快 的 集成 方式 ， 这 也 正 
是 它 这 么 流行 的 原因 。 
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图 4-1 展示 了 注册 部 分 的 用 户 界面 ， 它 直接 使 用 SQL 在 数据 库 中 创建 用 户 。 还 可 以 看 到 ， 
呼叫 中 心 应 用 程序 可 以 直接 运行 SQL 来 查看 和 编辑 数据 库 中 的 数据 。 仓 库 通 过 查询 数据 库 
来 显示 更 新 后 的 客户 订单 信息 。 这 是 一 种 非常 普通 的 模式 ， 但 实践 起 来 却 困难 重重 。 





客户 
数据 库 














图 4-1: 使 用 数据 库 集成 来 访问 和 修改 数据 信息 


首先 ， 这 使 得 外 部 系统 能 够 查看 内 部 实现 细节 ， 并 与 其 绑 定 在 一 起 。 存 储 在 数据 库 中 的 数 
据 结构 对 所 有 人 来 说 都 是 平等 的 ， 所 有 服务 都 可 以 完全 访问 该 数据 库 。 如 果 我 决定 为 了 更 
好 地 表示 数据 或 者 增加 可 维护 性 而 修改 表 结 构 的 话 ， 我 的 消费 方 就 无 法 进行 工作 。 数 据 库 
是 一 个 很 大 的 共享 API， 但 同时 也 非常 不 稳定 。 如 果 我 想 改变 与 之 相关 的 逻辑 ， 比 如 说 帮 
助 台 如 何 管理 客户 ， 这 就 需要 修改 数据 库 。 为 了 不 影响 其 他 服务 ， 我 必须 非常 小 心地 避免 
修改 与 其 他 服务 相关 的 表 结 构 。 这 种 情况 下 ， 通 常 需要 做 大 量 的 回归 测试 来 保证 功能 的 正 
确 性 。 


其 次 ， 消 费 方 与 特定 的 技术 选择 绑 定 在 了 一 起 。 可 能 现在 来 看 ， 使 用 关系 型 数据 库 做 存储 
是 合理 的 ， 所 以 我 的 消费 方 会 使 用 一 个 合适 的 驱动 _( 很 有 可 能 是 与 具体 数据 库 相 关 的 ) 来 
与 之 一 起 工作 。 说 不 定 一 段 时 间 之 后 我 们 会 意识 到 ， 使 用 非 关系 型 数据 库 才 是 更 好 的 选 
择 。 如 果 消 费 方 和 客户 服务 非常 紧密 地 绑 定 在 了 一 起 ， 那 么 能 够 轻易 替换 这 个 数据 库 吗 ? 
正如 前 面 所 讨论 的 ， 隐 藏 实现 细节 非常 重要 ， 因 为 它 让 我 们 的 服务 拥有 一 定 的 自治 性 ， 从 
而 可 以 轻易 地 修改 其 内 部 实现 。 再 见 ， 松 耦合 。 


最 后 ， 让 我 们 考虑 一 下 行为 。 肯 定 会 有 一 部 分 逻辑 负责 对 客户 进行 修改 。 那 么 这 个 逻辑 应 
该 放 在 什么 地 方 呢 ?如 果 消 费 方 直接 操作 数据 库 ， 那 么 它们 都 需要 对 这 些 逻 辑 负 责 。 对 数 
据 库 进 行 操作 的 相似 逻辑 可 能 会 出 现在 很 多 服务 中 。 如 果 仓 库 、 注 册 用 户 界 面 、 呼 叫 中 心 
都 需要 编辑 客户 的 信息 ， 那 么 当 修复 一 个 bug 的 时 候 ， 你 需要 修改 三 个 不 同 的 地 方 ， 并 且 
对 这 些 修改 分 别 做 部 署 。 再 见 ， 内 聚 性 。 


还 记得 前 面 提 到 过 的 关于 好 的 微服 务 的 核心 原则 吗 ? 疫 错 ， 就 是 高 内 聚 和 低 耦 合 。 但 是 使 
用 数据 库 集成 使 得 这 两 者 都 很 难 实现 。 服 务 之 间 很 容易 通过 数据 库 集 成 来 共享 数据 ， 但 是 
无 法 共享 行为 。 内 部 表示 暴露 给 了 我 们 的 消费 方 ， 而 且 很 难 做 到 无 破坏 性 的 修改 ， 进 而 不 
可 避免 地 导致 不 敢 做 任何 修改 ， 所 以 无 论 如 何 都 要 避免 这 种 情况 。 





在 本 章 的 剩余 部 分 中 ， 我 们 会 介绍 服务 之 间 不 同 风 格 的 集成 方式 ， 这 些 方式 都 可 以 保证 服 
务 的 内 部 实现 得 以 隐藏 。 


4.4 同步 与 异步 


在 介绍 具体 的 技术 选择 之 前 ， 让 我 们 先 就 服务 如 何 协作 这 个 问题 做 一 些 讨论 。 服 务 之 间 
的 通信 应 该 是 同步 的 还 是 异步 的 呢 ? 这 个 基础 性 的 选择 会 不 可 避免 地 引导 我 们 使 用 不 同 
的 实现 。 


如 果 使 用 同步 通信 ， 发 起 一 个 远程 服务 调用 后 ， 调 用 方 会 阻塞 自己 并 等 待 整个 操作 的 完 
成 。 如 果 使 用 异步 通信 ， 调 用 方 不 需要 等 待 操作 完成 就 可 以 返回 ， 甚 至 可 能 不 需要 关心 这 
个 操作 完成 与 否 。 


同步 通信 听 起 来 合理 ， 因 为 可 以 知道 事情 到 底 成 功 与 否 。 蜡 步 通信 对 于 运行 时 间 比较 长 的 
任务 来 说 比较 有 用 ， 否 则 就 需要 在 客户 端 和 服务 器 之 间 开 启 一 个 长 连接 ， 而 这 是 非常 不 实 
际 的 。 当 你 需要 低 延 迟 的 时 候 ， 通 常会 使 用 异步 通信 ， 否 则 会 由 于 阻塞 而 降低 运行 的 速 
度 。 对 于 移动 网 络 及 设备 而 言 ， 发 送 一 个 请 求 之 后 假设 一 切 工作 正常 【除非 被 告知 不 正 
常 )， 这 种 方式 可 以 在 很 大 程度 上 保证 在 网 络 很 卡 的 情况 下 用 户 界面 依然 很 流畅 。 另 一 方 
面 ， 处 理 异 步 通信 的 技术 相对 比较 复杂 ， 后 面 会 讨论 。 


这 两 种 不 同 的 通信 模式 有 着 各 自 的 协作 风格 ， 即 请 求 /响应 或 者 基于 事件 。 对 于 请 求 / 响 
应 来 说 ， 客 户 端 发 起 一 个 请 求 ， 然 后 等 待 响应 。 这 种 模式 能 够 与 同步 通信 模式 很 好 地 匹 
配 ， 但 异步 通信 也 可 以 使 用 这 种 模式 。 我 可 以 发 起 一 个 请 求 ， 然 后 注册 一 个 回调 ， 当 服务 
端 操作 结束 之 后 ， 会 调用 该 回调 。 


对 于 使 用 基于 事件 的 协作 方式 来 说 ， 情 况 会 颠倒 过 来 。 客 户 端 不 是 发 起 请 求 ， 而 是 发 布 一 
个 事件 ， 然 后 期 待 其 他 的 协作 者 接收 到 该 消息 ， 并 且 知 道 该 怎么 做 。 我 们 从 来 不 会 告知 任 
何人 去 做 任何 事情 。 基 于 事件 的 系统 天 生 就 是 异步 的 。 整 个 系统 都 很 聪明 ， 也 就 是 说 ， 业 
务 逻 辑 并 非 集中 存在 于 某 个 核心 大 脑 ， 而 是 平均 地 分 布 在 不 同 的 协作 者 中 。 基 于 事件 的 协 
作 方 式 耦 合 性 很 低 。 客 户 端 发 布 一 个 事件 ， 但 并 不 需要 知道 谁 或 者 什么 会 对 此 做 出 响应 ， 
这 也 意味 着 ， 你 可 以 在 不 影响 客户 端的 情况 下 对 该 事件 添加 新 的 订阅 者 。 


哪些 因素 会 影响 对 这 两 种 风格 的 选择 呢 ? 一 个 重要 的 因素 是 这 种 风格 能 否 很 好 地 解决 复杂 
问题 ， 比 如 如 何 处 理 跨 服务 边界 的 流程 ， 而 且 这 种 流程 有 可 能 会 运行 很 长 时 间 。 
4.5 编排 与 协同 


在 开始 对 越 来 越 复杂 的 逻辑 进行 建 模 时 ， 我 们 需要 处 理 跨 服务 业务 流程 的 问题 ， 而 使 用 微 
服务 时 这 个 问题 会 来 得 更 快 。 让 我 们 来 看 看 在 MusicCorp 中 创建 用 户 时 发 生 了 什么 : 
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(1) 在 客户 的 积分 账户 中 创建 一 条 记录 
(2) 通 过 邮政 系统 发 送 一 个 欢迎 礼包 
(3) 向 客户 发 送 欢 迎 电 子 邮 件 


在 图 4-2 中 可 以 很 容易 地 使 用 流程 图 对 这 个 概念 进行 建 模 。 























图 4-2: 创建 新 客户 的 流程 


当 考 虑 具体 实现 时 ， 有 两 种 架构 风格 可 以 采用 。 使 用 编排 〈orchestration) 的 话 ， 我 们 
会 依赖 于 某 个 中 心 大 脑 来 指导 并 驱动 整个 流程 ， 就 像 管 弦 乐 队 中 的 指挥 一 样 。 使 用 协同 
(choreography) 的 话 ， 我 们 仅仅 会 告知 系统 中 各 个 部 分 各 自 的 职责 ， 而 把 具体 怎么 做 的 细 
节 留 给 它们 自己 ， 就 像 芭 蔓 舞 中 每 个 舞 者 都 有 自己 的 方式 ， 同 时 也 会 响应 周围 其 他 人 。 


考虑 一 下 对 这 个 流程 来 说 ， 编 排 的 解决 方案 会 是 什么 样子 的 。 可 能 最 简单 的 方式 就 是 让 客 
户 服务 作为 中 心 大 脑 。 在 创建 时 它 会 跟 积 分 账户 、 电 子 邮 件 服务 及 邮政 服务 通过 请 求 / 响 
应 的 方式 进行 通信 ， 如 图 4-3 所 示 。 客 户 服 务 本 身 可 以 对 当前 进行 到 了 哪 一 步 进 行 跟踪 。 
它 会 检查 客户 账户 是 否 创建 成 功 、 电 子 邮 件 是 否 发 送出 去 及 邮包 是 否 寄 出 。 图 4-2 中 的 流 
程 图 可 以 直接 转换 成 为 代码 。 其 至 有 工具 可 以 帮 你 实现 ， 比 如 一 个 合适 的 规则 引擎 。 也 有 
一 些 商 业 工具 可 以 完成 这 些 工 作 ， 它 们 通常 被 称 作 商 业 流程 建 模 软件 。 假 如 使 用 的 是 同步 
的 请 求 /响应 模式 ， 我 们 甚至 能 知道 每 一 步 是 否 都 成 功 了 。 


编排 方式 的 缺点 是 ， 客 户 服务 作为 中 心 控制 点 承担 了 太 多 职责 ， 它 会 成 为 网 状 结构 的 中 心 
枢纽 及 很 多 逻辑 的 起 点 。 我 见 过 这 个 方法 会 导致 少量 的 “上 帝 ” 服 务 ， 而 与 其 打交道 的 那 
些 服务 通常 都 会 沦 为 贫血 的 、 基 于 CRUD 的 服务 。 


如 果 使 用 协同 ， 可 以 仅仅 从 客户 服务 中 使 用 异步 的 方式 触发 一 个 事件 ， 该 事件 名 可 以 叫 作 
“客户 创建 "。 电 子 邮件 服务 、 邮 政 服务 及 积分 账户 可 以 简单 地 订阅 这 些 事件 并 且 做 相应 处 





理 ， 如 图 4-4 所 示 。 这 种 方法 能 够 显著 地 消除 耦合 。 如 果 其 他 的 服务 也 关心 客户 创建 这 件 
事情 ， 它 们 简单 地 订阅 该 事件 即 可 。 缺 点 是 ， 看 不 到 如 图 4-2 中 展示 的 那 种 很 明显 的 业务 
流程 视图 。 





创建 点 数 余额 






发 送 欢迎 电子 邮件 








图 4-3: 通过 编排 处 理 客户 创建 




















图 4-4: 通过 协同 处 理 客户 创建 事件 


这 意味 着 ， 需 要 做 一 些 额外 的 工作 来 监控 流程 ， 以 保证 其 正确 地 进行 。 举 个 例子 ， 如 果 积 
分 账户 存在 的 bug 导致 账户 没有 创建 成 功 ， 程 序 是 否 能 够 捕捉 到 这 个 问题 ?处 理 该 问题 的 
一 种 方法 是 ， 构 建 一 个 与 图 4-2 中 展示 的 业务 流程 相 匹配 的 监控 系统 。 实 际 的 监控 活动 是 
针对 每 个 服务 的 ， 但 最 终 需 要 把 监控 的 结果 映射 到 业务 流程 中 。 在 这 个 流程 图 中 我 们 可 以 
看 出 系统 是 如 何 工 作 的 。 


通常 来 讲 ， 我 认为 使 用 协同 的 方式 可 以 降低 系统 的 耦合 度 ， 并 且 你 能 更 加 灵活 地 对 现 有 系 
统 进 行 修改 。 但 是 ， 确 实 需要 额外 的 工作 来 对 业务 流程 做 跨 服务 的 监控 。 我 还 发 现 大 多 数 
重量 级 的 编排 方案 都 非常 不 稳定 且 修 改 代价 很 大 。 基 于 这 些 事实 ， 我 倾向 于 使 用 协同 方 
式 ， 在 这 种 方式 下 每 个 服务 都 足够 聪明 ， 并 且 能 够 很 好 地 完成 自己 的 任务 。 


这 里 有 好 几 个 因素 需要 考虑 。 同 步调 用 比较 简单 ， 而 且 很 容易 知道 整个 流程 的 工作 是 否 正 
常 。 如 果 想 要 请 求 /响应 风格 的 语义 ， 又 想 避 免 其 在 耗 时 业务 上 的 困境 ， 可 以 采用 异步 请 
求 加 回调 的 方式 。 另 一 方面 ， 使 用 异步 方式 有 利于 协同 方案 的 实施 ， 从 而 大 大 减少 服务 间 
的 耦合 ， 这 恰恰 就 是 我 们 为 了 能 独立 发 布 服务 而 追求 的 特性 。 
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当然 我 们 也 可 以 选择 混用 不 同 的 方式 。 然 而 不 同 的 技术 适用 于 不 同 的 方式 ， 因 此 需要 了 解 
不 同 技术 的 实现 细节 ， 从 而 更 好 地 做 出 选择 。 


针对 请 求 / 响 应 方式 ， 可 以 考虑 两 种 技术 : RPC (Remote Procedure Call， 远 程 过 程 调 用 ) 
和 REST (REpresentational State Transfer， 表 述 性 状态 转移 ) 。 


4.6 远程 过 程 调 用 

远程 过 程 调用 允许 你 进行 一 个 本 地 调用 ， 但 事实 上 结果 是 由 某 个 远程 服务 器 产生 的 。RPC 
的 种 类 繁多 ， 其 中 一 些 依赖 于 接口 定义 (SOAP、Thrift、protocol buffers 等 )。 不 同 的 技术 
栈 可 以 通过 接口 定义 轻松 地 生成 客户 端 和 服务 端的 桩 代码 。 举 个 例子 ， 我 可 以 让 一 个 Java 
服务 暴露 一 个 SOAP 接口 ， 然 后 使 用 WSDL (Web Service Definition Language，Web 服务 
描述 语言 ) 定义 的 接口 生成 .NET 客户 端的 代码 。 其 他 的 技术 ， 比 如 Java RMI， 会 导致 服 
务 端 和 客户 端 之 间 更 紧 的 耦合 ， 这 种 方式 要 求 双 方 都 要 使 用 相同 的 技术 栈 ， 但 是 不 需要 额 
外 的 共享 接口 定义 。 然 而 所 有 的 这 些 技术 都 有 一 个 核心 特点 ， 那 就 是 使 用 本 地 调用 的 方式 
和 远程 进行 交互 。 


有 很 多 技术 本 质 上 是 二 进 制 的 ， 比 如 Java RMI、Thrift、protocol buffers 等 ， 而 SOAP 使 用 
XML 作为 消息 格式 。 有 些 RPC 实现 与 特定 的 网 络 协议 相 绑 定 (比如 SOAP 名 义 上 使 用 的 
就 是 HTTP)， 当 然 不 同 的 实现 会 使 用 不 同 的 协议 ， 不同 的 协议 可 以 提供 不 同 的 额外 特性 。 
比如 TCP 能 够 保证 送 达 ，UDP 虽然 不 能 保证 送 达 但 协议 开销 较 小 ， 所 以 你 可 以 根据 自己 
的 使 用 场景 来 选择 不 同 的 网 络 技术 。 


那些 RPC 的 实现 会 帮 你 生成 服务 端 和 客户 端的 桩 代码 ， 从 而 让 你 快速 开始 编码 。 基 本 不 用 
花 时 间 ， 我 就 可 以 在 服务 之 间 进 行内 容 交互 了 。 这 通常 也 是 RPC 的 主要 卖点 之 一 : 易于 使 
用 。 从 理论 上 来 说 ， 这 种 可 以 只 使 用 普通 的 方法 调用 而 忽略 其 他 细节 的 做 法 简直 是 给 程序 
员 的 巨大 福利 。 


然而 有 一 些 RPC 的 实现 确实 存在 一 些 问 题 。 这 些 问题 通常 一 开始 不 明显 ， 但 慢 慢 地 就 会 暴 
露出 来 ， 并 且 甚 带 来 的 代价 要 远 远大 于 一 开始 快速 启动 的 好 处 。 


4.6.1 技术 的 耦合 

有 一 些 RPC 机 制 ， 如 Java RMI， 与 特定 的 平台 紧密 绑 定 ， 这 对 于 服务 端 和 客户 端的 技术 
选 型 造成 了 一 定 限 制 。Thrift 和 protocol buffers 对 于 不 同 语言 的 支持 很 好 ， 从 而 在 一 定 
程度 上 减 小 了 这 个 问题 的 影响 。 但 还 是 要 注意 ， 有 了 时候 RPC 技术 对 于 互 操作 性 有 一 定 的 
限制 。 


从 某 种 程度 上 来 讲 ， 这 种 技术 上 的 耦合 也 是 暴露 内 部 实现 细节 的 一 种 方式 。 举 个 例子 ， 使 
用 RMI 不 仅 把 客户 端 绑 定 在 了 JVM 上 ， 服 务 端 也 是 如 此 。 
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4.6.2 ”本 地 调用 和 远程 调用 并 不 相同 

RPC 的 核心 想法 是 隐藏 远程 调用 的 复杂 性 。 但 是 很 多 RPC 的 实现 隐藏 得 有 些 过 头 了 ， 进 

而 会 造成 一 些 问题 。 使 用 本 地 调用 不 会 引起 性 能 问题 ， 但 是 RPC 会 花 大 量 的 时 间 对 负荷 进 
行 封装 和 解 封装 ， 更 别提 网 络 通 信 所 需要 的 时 间 。 这 意味 着 ， 要 使 用 不 同 的 思路 来 设计 远 

和 API。 简 单 地 把 一 个 本 地 的 API 改造 成 为 跨 服务 的 远程 API 往往 会 带 来 问题 。 

最 精 的 情况 是 ， 开 发 人 员 会 在 不 知道 该 调用 是 远程 调用 的 情况 下 对 其 进行 使 用 。 


你 还 需要 考虑 网 络 本 身 。 分 布 式 计算 中 一 个 非常 著名 的 错误 观点 就 是 “网 络 是 可 靠 的 ” 
(https://blogs.oracle.com/jag/resource/Fallacies.html) ， 事 实 上 网 络 并 不 可 靠 。 即 使 客户 端 和 
服务 端 都 正常 运行 ， 整 个 调用 也 有 可 能 会 出 错 。 这 些 错 误 有 可 能 会 很 快 发 生 ， 也 有 可 能 会 
过 一 段 时 间 才 会 显现 出 来 ， 它 们 甚至 有 可 能 会 损坏 你 的 报 文 。 你 应 该 做 出 一 个 假设 有 一 
些 恶意 的 攻击 者 随时 有 可 能 对 网 络 进 行 破坏 ， 因 此 网 络 的 出 错 模式 也 不 止 一 种 。 服 务 端 
可 能 会 返回 一 个 错误 信息 ， 或 者 是 请 求 本 身 就 是 有 问题 的 。 你 能 够 区 分 出 不 同 的 故障 模 
式 吗 ? 如 果 可 以 ， 分 别 如 何 处 理 ? 如 果 仅 仅 是 因为 远程 服务 刚刚 启动 ， 所 以 响应 才 会 有 点 
慢 ， 该 怎么 办 ? 在 第 11 章 中 讨论 弹性 时 ， 会 就 这 些 话题 做 更 多 讨论 。 


4.6.3” 爱 弱 性 

有 一 些 很 流行 的 RPC 实现 可 能 会 造成 一 些 令 人 讨厌 的 脆弱 性 ，Java 的 RMI 就 是 一 个 很 好 
的 例子 。 考 虑 一 个 非常 简单 的 Java 接口 ， 通 过 该 接口 可 以 向 客户 服务 发 起 一 个 远程 调用 。 
示例 4-1 中 声明 了 向 远 端 提供 的 接口 。 然 后 Java RMI 会 针对 这 些 方法 生成 客户 端 和 服务 端 
的 桩 代码 。 


示例 4-1: 使 用 JavaRMI 定义 一 个 服务 的 接口 
import java.rmi.Remote; 


import java.rmi.RemoteException; 


public interface CustomerRemote extends Remote { 
public Customer findCustomer(String id) throws RemoteException; 


public Customer createCustomer(String firstname, String surname, String emailAddress) 
throws RemoteException; 


} 


在 这 个 接口 中 ，findCustomer 接受 名 (first name)、 姓 (surname) 及 电子 邮件 地 址 (email 
address) 作为 参数 。 如 果 我 决定 只 需要 电子 邮件 地 址 (email address) 就 可 以 创建 客户 对 
象 的 话 ， 该 怎么 办 呢 ? 很 容易 添加 一 个 新 的 方法 ， 如 下 所 示 ; 


public Customer createCustomer(String emailAddress) throws RemoteException; 
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这 里 存在 一 个 问题 ， 因 为 对 规格 说 明 进行 了 修改 ， 所 以 所 有 的 客户 端 都 需要 重新 生成 桩 ， 
无 论 该 客户 端 是 否 需要 这 个 新 方法 。 对 每 一 个 具体 的 点 来 说 ， 这 种 修改 还 是 可 控 的 ， 但 事 
实 上 这 样 的 修改 会 非常 普遍 。RPC 接口 最 后 通常 都 会 包含 很 多 与 对 象 进行 交互 或 者 创建 对 
象 的 方法 。 造 成 这 种 后 果 的 一 部 分 原因 就 是 ， 没 有 意识 到 现在 是 在 做 远程 调用 ， 而 非 本 地 
调用 。 


还 有 一 种 形式 的 脆弱 性 。 让 我 们 来 看 看 Customer 对 象 是 什么 样子 : 


public class Customer implements Serializable { 
private String firstName; 
private String surname; 
private String emailAddress; 
private String age; 


如 果 最 后 发 现 Customer 对 象 中 的 年 龄 字段 完全 没有 任何 消费 者 使 用 ， 你 可 能 想 要 去 掉 这 
个 字段 。 但 如 果 单 单 从 服务 端的 实现 中 删除 年 龄 ， 而 客户 端 没有 做 相应 修改 的 话 ， 那 么 即 
使 它们 从 来 没有 用 过 这 个 字段 ， 客 户 端 中 和 Customer 对 象 反 序列 化 相关 的 代码 还 是 会 出 问 
题 。 所 以 为 了 应 用 这 些 修 改 ， 需 要 同时 对 服务 端 和 客户 端 进行 部 署 。 这 就 是 任何 一 个 使 用 
二 进 制 桩 生成 机 制 的 RPC 所 要 面临 的 挑战 : 客户 端 和 服务 器 的 部 署 无 法 分 离 。 如 果 使 用 这 
种 技术 ， 离 lock-step 发 布 就 不 远 了 。 


类 似 地 ， 不 删除 字段 而 是 调整 Customer 的 结构 也 会 遇 到 类 似 的 问题 。 一 个 可 能 的 例子 是 ， 
把 名 (firstName) 和 姓 (surname) 封装 到 一 个 新 的 类 型 中 来 简化 代码 。 有 一 个 办 法 可 以 
避免 这 种 问题 ， 即 使 用 一 个 字典 类 型 作为 参数 进行 传递 。 但 如 果真 这 么 做 的 话 ， 就 会 失去 
自动 生成 桩 的 好 处 ， 因 为 你 还 是 要 手动 去 匹配 和 提取 这 些 字段 。 


在 实践 中 ， 通 信 双 方 使 用 的 数据 类 型 会 直接 被 序列 化 和 反 序 列 化 。 而 这 个 数据 类 型 中 会 包 
含 大 量 的 字段 ， 这 就 导致 不 再 使 用 的 字段 无 法 被 安全 删除 。 


4.6.4 ”RPC 很 糟糕 吗 

尽管 存在 这 些 缺 点 ， 我 也 不 会 说 RPC 很 糟糕。 然而 我 见 过 一 些 常 见 的 实现 确实 会 导致 这 里 
列 出 的 问题 ， 比 如 RMI， 我 会 尽量 避免 使 用 它 。 当 然 RPC 中 也 包含 很 多 其 他 不 同 的 实现 。 
更 现代 的 一 些 RPC 机 制 ， 比 如 protocol buffers 或 者 Thrift， 会 通过 避免 对 客户 端 和 服务 端 
的 lock-step 发 布 来 消除 上 面 提 到 的 一 些 问题 。 


如 果 你 决定 要 选用 RPC 这 种 方式 的 话 ， 需 要 注意 一 些 问题 ， 不 要 对 远程 调用 过 度 抽象 ， 以 
至 于 网 络 因 素 完全 被 隐 茂 起来， 确保 你 可 以 独立 地 升级 服务 端的 接口 而 不 用 强迫 客户 端 升 
级 ， 所 以 在 编写 客户 端 代码 时 要 注意 这 方面 的 平衡 ， 在 客户 端 中 一 定 不 要 隐藏 我 们 是 在 做 
网 络 调用 这 个 事实 ， 在 RPC 的 方式 中 经 常会 在 客户 端 使 用 库 ， 但 是 这 些 库 如 果 在 结构 上 组 
织 得 不 够 好 ， 也 可 能 会 带 来 一 些 问题 ， 后 面 会 对 此 做 更 详细 的 讨论 。 














RPC 是 请 求 /响应 协作 方式 中 的 一 种 ， 相 比 使 用 数据 库 做 集成 的 方式 ，RPC 显然 是 一 个 巨 
大 的 进步 。 但 是 我 们 还 有 其 他 的 选择 。 


4.7 REST 


REST 是 受 Web 启发 而 产生 的 一 种 架构 风格 。REST 风格 包含 了 很 多 原则 和 限制 ， 但 是 
这 里 我 们 仅仅 专注 于 ， 如 何在 微服 务 的 世界 里 使 用 REST 更 好 地 解决 集成 问题 。REST 是 
RPC 的 一 种 替代 方案 。 


其 中 最 重要 的 一 点 是 资源 的 概念 。 资 源 ， 比 如 说 Customer ， 处 于 服务 之 内 。 服 务 可 以 根据 
请 求 内 容 创 建 Customer 对 象 的 不 同 表示 形式 。 也 就 是 说 ， 一 个 资源 的 对 外 显示 方式 和 内 部 
存储 方式 之 间 没 有 什么 耦合 。 举 个 例子 ， 客 户 端 可 能 会 请 求 一 个 Customer 的 JSON 表示 形 
式 ， 而 Customer 在 内 部 的 存储 方式 可 以 完全 不 同 。 一 旦 客户 端 得 到 了 该 Customer 的 表示 ， 
就 可 以 发 出 请 求 对 其 进行 修改 ， 而 服务 端 可 以 选择 应 答 与 否 。 


REST 风格 包含 的 内 容 很 多 ， 上 面 仅 仅 给 出 了 简单 的 介绍 。 我 强烈 建议 你 看 一 看 
Richardson 的 成 熟 度 模型 (http:/martinfowler.comy/articles/richardsonMaturityModel.html ) ， 
其 中 有 对 REST 不 同 风格 的 比较 。 


REST 本 身 并 没有 提 到 底层 应 该 使 用 什么 协议 ， 尽 管事 实 上 最 常用 HTTP。 我 以 前 也 见 
过 使 用 其 他 协议 来 实现 REST 的 例子 ， 比 如 串口 或 者 USB， 当 然 这 会 引入 大 量 的 工作 。 
HTTP 的 一 些 特性 ， 比 如 动词 ， 使 得 在 HTTP 之 上 实现 REST 要 简单 得 多 ， 而 如 果 使 用 其 
他 协议 的 话 ， 就 需要 自己 实现 这 些 特性 。 


4.7.1 REST 和 HTTP 


HTTP 本 身 提供 了 很 多 功能 ， 这 些 功 能 对 于 实现 REST 风格 非常 有 用 。 比 如 说 HTTP 的 动 
词 (如 GET、POST 和 PUT) 就 能 够 很 好 地 和 资源 一 起 使 用 。 事 实 上 ，REST 架构 风格 声 
明了 一 组 对 所 有 资源 的 标准 方法 ， 而 HTTP 恰好 也 定义 了 一 组 方法 可 供 使 用 。GET 使 用 知 
等 的 方式 获取 资源 ，POST 创建 一 个 新 资源 。 这 就 意味 着 ,我 们 可 以 避免 很 多 不 同 版 本 的 
createCustomer 及 editCustomer 方法 。 相 反 ， 简 单 地 POST 一 个 Customer 的 表示 到 服务 
端 ， 然 后 服务 端 就 可 以 创建 一 个 新 的 资源 ， 接 下 来 可 以 发 起 一 个 GET 请 求 来 获取 资源 的 
表示 。 从 概念 上 来 说 ， 对 于 一 个 customer 资源 ， 访 问 接口 只 有 一 个 ， 但 是 可 以 通过 HTTP 
协议 的 不 同 动词 对 其 进行 不 同 的 操作 。 


HTTP 周边 也 有 一 个 大 的 生态 系统 ， 其 中 包含 很 多 支撑 工具 和 技术 。 比 如 Varriish 这 样 的 
HTTP 缓存 代理 、mod_proxy 这 样 的 负载 均衡 器 、 大 量 针对 HTTP 的 监控 工具 等 。 这 些 组 
件 可 以 帮助 我 们 很 好 地 处 理 HTTP 流量 ， 并 使 用 聪明 的 方式 对 其 进行 路 由 ， 而 且 这 些 操作 
基本 上 都 对 终端 用 户 透 明 。HTTP 还 提供 了 一 系列 安全 控制 机 制 供 我 们 直接 使 用 。 从 基本 
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认证 到 客户 端 证 书 ，HTTP 生态 系统 提供 了 大 量 的 工具 来 简化 安全 性 处 理 ， 第 9 章 会 就 该 
话题 做 更 多 讨论 。 即 便 如 此 ， 你 需要 正确 地 使 用 HTTP 才能 得 到 这 些 好 处 。 如 果 用 得 不 
好 ， 它 就 会 像 其 他 技术 一 样 变 得 既 不 安全 又 难以 扩展 。 如 果 用 得 好 ， 你 会 得 到 很 多 好 处 。 


需要 注意 的 是 ，HTTP 也 可 以 用 来 实现 RPC。 比 如 SOAP 就 是 基于 HTTP 进行 路 由 的 ， 但 
不 幸 的 是 它 只 用 到 HTTP 很 少 的 特性 ， 而 动词 和 HTTP 的 错误 码 都 被 忽略 了 。 很 多 时 候 ， 
似乎 那些 已 有 的 并 且 很 好 理解 的 标准 和 技术 会 被 忽略 ， 然 后 新 推出 的 标准 又 只 能 使 用 全 新 
的 技术 来 实现 ， 而 这 些 新 技术 的 提供 者 也 就 是 制定 那些 新 标准 的 公司 1 


4.7.2 超 媒 体 作 为 程序 状态 的 引擎 

REST 引入 的 用 来 避免 客户 端 和 服务 端 之 间 产 生 耦 合 的 另 一 个 原则 是 “HATEOAS” 
(Hypermedia As The Engine Of Application State， 超 媒体 作为 程序 状态 的 引擎 。 天 哪 ， 它 真 
的 需要 一 个 缩写 吗 ? )。 这 个 概念 很 长 也 很 有 趣 ， 所 以 让 我 们 详细 看 一 下 。 


超 媒体 的 概念 是 : 有 一 块 内 容 ， 该 内 容 包含 了 指向 其 他 内 容 的 链接 ， 而 这 些 内 容 的 格式 可 
以 不 同 〈 如 文本 、 图 像 、 声 音 等 )。 这 个 概念 你 应 该 很 熟悉 ， 因 为 你 可 以 在 任何 一 个 网 页 
上 看 到 超 媒体 控制 形式 的 链接 ， 当 你 点 击 链 接 时 可 以 看 到 相关 的 内 容 。HATEOAS 背后 的 
想法 是 ， 客 户 端 应 该 与 服务 端 通过 那些 指向 其 他 资源 的 链接 进行 交互 ， 而 这 些 交 互 有 可 能 
造成 状态 转移 。 它 不 需要 知道 customer 在 服务 端的 URI， 相 反 客 户 端 根据 链接 导航 到 它 想 
要 的 东西 。 


这 个 概念 有 点 奇怪 ， 所 以 让 我 们 退 后 一 步 ， 考 虑 一 下 人 类 和 网 页 这 个 超 媒 体 之 间 是 如 何 交 
互 的 。 


芳 虑 Amazon.com 这 个 站 点 。 随 着 时 间 的 推移 ， 购 物 车 的 位 置 、 图 像 、 链 接 都 有 可 能 发 生 
变化 ， 但 是 人 类 足够 聪明 ， 你 还 是 能 够 找到 它 。 无 论 确切 的 形式 和 底层 使 用 的 控件 发 生 怎 
样 的 改变 ， 我 们 仍然 很 清楚 如 果 你 想 要 浏览 购物 车 的 话 ， 应 该 去 点 哪个 按钮 。 这 就 是 为 什 
么 在 网 页 上 可 以 做 出 一 些 增 量 的 修改 ， 只 要 这 些 客户 和 站 点 之 间 的 隐 式 约定 仍然 满足 ， 这 
些 修 改 就 不 会 破坏 站 点 的 功能 。 


使 用 超 媒 体 控制 时 ,我们 希望 电子 用 户 ?也 能 达到 同样 的 聪明 程度 。 首 先 看 一 看 MusicCorp 
可 能 会 用 到 的 超 媒体 控制 都 有 哪些 。 在 示例 4-2 中 我 们 对 表示 专辑 目录 项 的 资源 进行 访问 。 
在 专辑 的 信息 中 可 以 看 到 一 系列 超 媒体 控制 。 


示例 4-2: 专辑 信息 中 的 超 媒体 控制 
<aLbum> 
<name>Give Blood</name> 
<Link rel="/artist" href="/artist/theBrakes" /> @ 
<description> 


注 2: 电子 用 户 指 其 他 的 服务 等 。 一 一 译 者 注 
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Awesome, short, brutish, funny and loud. Must buy! 
</description> 
<link rel="/instantpurchase" href="/instantPurchase/1234" /> @ 
</album> 


@ 这 个 超 媒 体 控制 告诉 我 们 去 哪里 找 作者 的 信息 。 
@ 如 果 我 想 要 买 这 张 专辑 ， 应 该 知道 如 何 购买 。 


这 个 文档 中 存在 两 个 超 媒 体 控制 。 读 取 该 文档 的 客户 端 需要 知道 ， 应 该 从 关系 ( 即 示例 中 
的 rel) 为 artist 的 那个 链接 中 获取 作者 的 信息 ， 而 文档 中 的 instantpurchase 也 是 协议 的 
一 部 分 ， 访 问 该 链接 即 可 购买 该 专辑 。 就 像 人 类 需要 理解 如 何 识 别 购物 网 站 上 的 购物 车 一 
样 ， 客 户 端 也 需要 理解 该 API 的 语义 。 


作为 一 个 客户 端 ， 我 不 需要 知道 购买 专辑 的 URI， 只 需要 访问 专辑 资源 ， 找 到 其 购买 链 
接 ， 然 后 访问 它 即 可 。 购 买 链接 的 位 置 可 能 会 改变 ，URI 也 可 能 会 变 ， 该 站 点 甚至 可 以 发 
送 给 我 额外 的 信息 ， 但 是 作为 客户 端 不 用 在 意 这 些 。 这 就 使 得 客户 端 和 服务 端 之 间 实 现 了 


松 耦 合 。 


这 样 底 层 细节 就 被 很 好 地 隐藏 起 来 了 。 我 们 可 以 随意 改变 链接 的 展现 形式 ， 只 要 客户 端 仍 
然 能 够 通过 特定 的 协议 找到 它 即 可 。 类 似 地 ， 购 物 车 也 可 以 从 一 个 很 简单 的 链接 变 成 一 个 
复杂 一 些 的 JavasScript 控件 。 你 也 可 以 随意 向 文档 中 添加 新 的 链接 ， 从 而 给 客户 端 提供 对 
资源 状态 的 额外 操作 。 除 非 我 们 改变 某 个 链接 的 语义 或 者 删除 该 链接 ， 否 则 客户 端 不 会 受 
到 影响 。 


使 用 这 些 链接 来 对 客户 端 和 服务 端 进行 解 耦 ， 从 长 期 来 看 有 着 很 显著 的 好 处 ， 因 为 你 不 需 
要 一 再 调整 客户 端 代码 来 匹配 服务 端的 修改 。 通 过 使 用 这 些 链 接 ， 客 户 端 能 够 自行 获取 相 
关 API， 这 对 于 实现 新 客户 端 来 说 非常 方便 。 


这 种 方式 的 一 个 缺点 是 ， 客 户 端 和 服务 端 之 间 的 通信 次 数 会 比较 多 ， 因 为 客户 端 需要 不 断 
地 发 现 链接 、 请 求 、 再 发 现 链接 ， 直 到 找到 自己 想 要 进行 的 那个 操作 ， 所 以 这 里 终究 还 是 
需要 做 一 些 取舍 。 我 建议 ， 你 一 开始 先 让 客户 端 去 自行 遍历 和 发 现 它 想 要 的 链接 ， 然 后 如 
果 有 必要 的 话 再 想 办 法 优化 。 别 忘 了 前 面 我 们 提 到 了 很 多 跟 HTTP 相关 的 工具 可 以 帮助 我 
们 。 很 多 文献 都 讨论 过 过 早 优化 的 坏处 ， 所 以 这 里 我 就 不 花 时 间 讨 论 这 个 话题 了 。 需 要 注 
意 的 是 ， 这 里 的 很 多 方法 都 可 以 用 来 创建 分 布 式 超 文本 系统 ， 但 并 不 是 所 有 的 方法 都 适用 
于 所 有 的 场景 ! 有 时 候 你 会 发 现 自 己 需要 的 就 是 一 个 好 一 些 的 老式 RPC 而 已 。 


我 个 人 很 喜欢 让 客户 端 自行 遍历 和 发 现 API 这 种 形式 。 自 行 发 现 和 解 砖 的 好 处 非常 之 大 ， 
然而 很 显然 并 非 所 有 人 都 买账 ， 因 为 我 身边 很 多 人 都 不 是 这 么 做 的 。 我 认为 主要 原因 是 这 
么 做 需要 一 定 的 投入 ， 但 是 回报 的 时 间 往 往 比较 长 。 
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4.7.3 JSON、XML 还 是 其 他 


由 于 服务 端 使 用 标准 文本 形式 的 响应 ， 所 以 客户 端 可 以 很 灵活 地 对 资源 进行 使 用 ， 而 基于 
HTTP 的 REST 能 够 提供 多 种 不 同 的 响应 形式 。 到 目前 为 止 我 们 看 到 的 例子 都 是 XML 的 ， 
但 事实 上 目前 JSON 更 加 流行 。 


JSON 无 论 从 形式 上 还 是 从 使 用 方法 上 来 说 都 更 简单 。 有 些 支 持 者 认为 ， 相 比 XML， 
JSON 的 内 容 更 加 紧凑 ， 这 为 选用 JSON 增加 了 硅 码 ， 虽 然 真 实 世 界 中 这 并 不 是 太 重 要 的 
问题 。 


但 是 JSON 也 有 一 些 缺 点 。XML 使 用 链接 来 进行 超 媒体 控制 。JSON 标准 中 并 没有 类 似 的 
东西 ， 所 以 出 现 了 很 多 不 同 的 自 定义 的 方式 在 JSON 中 进行 超 媒体 控制 。HAL (Hypertext 
Application Language， 超 文本 应 用 语言 ，http://stateless.co/hal_specification.html) 试图 为 
JSON (也 包括 XML， 虽 然 大 家 普遍 认为 XML 不 需要 它 的 帮助 ) 定义 通用 的 超 文 本 标准 
格式 。 如 果 你 遵守 HAL 的 标准 ， 就 可 以 使 用 基于 Web 的 HAL 游览 器 来 使 用 超 媒 体 控制 ， 
这 会 使 创建 客户 端 简 单 得 多 。 


当然 并 不 是 说 只 有 这 两 种 格式 。 通 过 HTTP 我 们 可 以 发 送 任何 格式 ， 其 至 是 二 进 制 的 。 我 
看 到 越 来 越 多 的 人 直接 使 用 HTML， 而 非 XML。 对 于 有 些 接口 来 说 ，HTML 既 可 以 做 
UI， 也 可 以 做 API， 当 然 这 么 做 是 很 容易 出 错 的 ， 因 为 与 人 类 之 间 的 交互 ， 和 与 计算 机 之 
间 的 交互 的 差异 是 很 大 的 。 当 然 这 确实 是 一 个 很 有 吸引 力 的 想法 ， 毕 竟 已 经 有 那么 多 现成 
的 HTML 解析 器 可 用 。 


不 过 我 个 人 来 讲 还 是 很 喜欢 XML 的 ， 因 为 在 工具 上 有 很 好 的 支持 。 举 个 例子 ， 如 果 我 只 
想 提 取 负 载 (在 4.13 节 讨 论 “ 版 本 化 ”时 会 再 讨论 该 技术 ) 中 某 个 特定 部 分 的 话 ， 可 以 使 
用 XPATH， 而 支持 XPATH 标准 的 工具 相当 多 。CSS 选择 器 也 可 以 ， 并 且 用 起 来 还 更 简 
单 。 使 用 JSON 的 话 ， 也 有 JSONPATH 可 用 ， 但 是 目前 支持 该 标准 的 工具 很 有 限 。 我 感觉 
很 奇怪 的 是 ， 很 多 人 选择 JSON 是 因为 它 很 轻 量 ,但 是 又 想方设法 把 超 媒 体 控制 之 类 的 概 
念 添加 进去 ， 而 这 些 概 念 是 在 XML 中 早已 存在 的 。 不 过 我 承认 我 可 能 是 少数 派 ， 大 多 数 
人 还 是 喜欢 使 用 JSON。 


4.7.4 留心 过 多 的 约定 

由 于 REST 越 来 越 流 行 ， 帮 助 我 们 构建 RESTFul Web 服务 的 框架 也 随 之 流行 起 来 。 然 而 有 
些 工 具 会 为 了 短期 利益 而 牺牲 长 期 利益 ， 为 了 让 你 一 开始 启动 得 足够 快 ， 它 们 会 使 用 一 些 
不 好 的 实践 。 举 个 例子 ， 有 些 框架 可 以 很 容易 地 表示 数据 库 对 象 ， 并 把 它们 反 序 列 化 成 进 
程 内 的 对 象 ， 然 后 直接 暴露 给 外 部 。 我 记得 在 一 个 会 议 上 看 到 有 人 使 用 Spring Boot 演示 了 
这 种 做 法 ,并且 宣称 这 是 它们 的 主要 优势 。 这 种 方式 内 在 的 炮 合 性 所 带 来 的 痛苦 会 远 远 大 
于 从 一 开始 就 消除 概念 之 间 的 耦合 所 需要 的 代价 。 





我 们 很 容易 把 存储 的 数据 直接 暴露 给 消费 者 ， 那 么 如 何 避 免 这 个 问题 呢 ” 在 我 的 团队 中 一 
个 很 有 效 的 模式 是 先 设 计 外 部 接口 ， 等 到 外 部 接口 稳定 之 后 再 实现 微服 务 内 部 的 数据 持久 
化 。 在 此 期 间 ， 简 单 地 将 实体 持久 化 到 本 地 磁盘 的 文件 上 ， 当 然 这 并 非 长 久之 计 。 这 样 做 
可 以 保证 服务 的 接口 是 由 消费 者 的 需求 驱动 出 来 的 ， 从 而 避免 数据 存储 方式 对 外 部 接口 的 
影响 。 其 缺点 是 推迟 了 数据 存储 部 分 的 集成 。 我 认为 对 于 新 的 服务 来 说 ， 这 个 取 侈 是 可 接 


受 的 。 


4.7.5 基于 HTTP 的 REST 的 缺点 


从 易 用 性 角度 来 看 ， 基 于 HTTP 的 REST 无 法 帮助 你 生成 客户 端的 桩 代码 ， 而 RPC 可 以 。 
没 错 ， 使 用 HTTP 意味 着 有 许多 很 棒 的 HTTP 客户 端 库 可 供 使 用 ， 但 是 如 果 你 想 要 在 客户 
端 中 实现 并 使 用 超 媒体 控制 的 话 ， 那 基本 上 就 要 靠 自 己 了 。 从 个 人 角度 来 讲 ， 我 认为 客户 
端的 库 可 以 做 得 更 好 ， 当 然 现 在 的 库 已 经 比 过 去 的 好 很 多 了 。 但 是 我 发 现 使 用 库 会 增加 复 
杂 度 ， 因 为 人 们 会 不 自觉 地 回 到 基于 HTTP 的 RPC 的 思路 上 去 ， 然 后 构建 出 一 些 共享 库 。 
在 客户 端 和 服务 器 之 间 共 享 代码 是 非常 危险 的 ，4.11 节 会 就 此 做 更 多 讨论 。 


还 有 一 个 小 问题 : 有 些 Web 框架 无 法 很 好 地 支持 所 有 的 HTTP 动词 。 这 就 意味 着 你 很 容 
易 处 理 GET 和 POST 请 求 ， 但 是 PUT 和 DELETE 就 很 麻烦 了 。 像 Jersey 这 样 比 较 好 的 
REST 框架 就 不 存在 这 个 问题 ， 但 如 果 在 框架 选择 上 有 所 限制 的 话 ， 你 可 能 就 无 法 完整 地 
使 用 REST 风格 了 。 


性 能 上 也 可 能 会 遇 到 问题 。 基 于 HTTP 的 REST 支持 不 同 的 格式 ， 比 如 JSON 或 者 二 进 制 ， 
所 以 负载 相对 SOAP 来 说 更 加 紧凑 ， 当 然 和 像 Thrift 这 样 的 二 进 制 协议 是 设法 比 的 。 在 要 
求 低 延迟 的 场景 下 ， 每 个 HTTP 请 求 的 封装 开销 可 能 是 个 问题 。 


虽然 HTTP 可 以 用 于 大 流量 的 通信 场景 ， 但 对 低 延 迟 通 信和 来 说 并 不 是 最 好 的 选择 。 相 比 之 
下 ， 有 一 些 构建 于 TCP (Transmission Control Protocol， 传 输 控 制 协 议 ) 或 者 其 他 网 络 技 
术 之 上 的 协议 更 加 高 效 。 比 如 WebSockets， 虽 然 名 字 中 有 Web， 但 其 实 它 基本 上 跟 Web 
没什么 关系 。 在 初始 的 HTTP 握手 之 后 ， 客 户 端 和 服务 端 之 间 就 仅仅 通过 TCP 连接 了 。 对 
于 向 浏览 器 传输 数据 这 个 场景 而 言 ，WebSockets 更 加 高 效 。 如 果 这 是 你 的 需求 的 话 ， 那 么 
注意 你 其 实 并 不 需要 使 用 很 多 HTTP 的 特性 ， 更 别 说 其 他 跟 REST 相关 的 东西 了 。 


对 于 服务 和 服务 之 间 的 通信 来 说 ， 如 果 低 延迟 或 者 较 小 的 消息 尺寸 对 你 来 说 很 重要 的 话 ， 
那么 一 般 来 讲 HTTP 不 是 一 个 好 主意 。 你 可 能 需要 选择 一 个 不 同 的 底层 协议 ， 比 如 UDP 
(User Datagram Protocol， 用 户 数据 报 协 议 ) 来 满足 你 的 性 能 要 求 。 很 多 RPC 框架 都 可 以 
很 好 地 运行 在 除了 TCP 之 外 的 其 他 网 络 协议 上 。 


有 些 RPC 的 实现 支持 高 级 的 序列 化 和 反 序 列 化 机 制 ， 然 而 对 于 REST 而 言 ， 这 部 分 工作 
就 要 自己 做 了 。 这 部 分 工作 可 能 会 成 为 服务 端 和 客户 端 之 间 的 一 个 耦合 点 ， 因 为 实现 一 个 
有 具有 容错 性 的 读 取 器 不 是 一 件 容 易 的 事情 〈 后 面 会 做 讨论 ) ， 但 是 从 快速 启动 的 角度 来 看 ， 
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它们 还 是 非常 有 吸引 力 的 。 


尽管 有 这 些 缺 点 ， 在 选择 服务 之 间 的 交互 方式 时 ， 基 于 HTTP 的 REST 仍然 是 一 个 比较 合 
理 的 默认 选择 。 如 果 想 了 解 更 多 ， 我 建议 你 阅读 《REST 实战 》 这 本 书 ， 该 书 对 REST 做 
了 非常 详细 的 介绍 。 


4.8 ”实现 基于 事件 的 异步 协作 方式 


前 面 讨论 了 一 些 与 请 求 / 响应 模式 相关 的 技术 。 那 么 基于 事件 的 异步 通信 呢 ? 


4.8.1 技术 选择 
主要 有 两 个 部 分 需要 考虑 : 微服 务 发 布 事件 机 制 和 消费 者 接收 事件 机 制 。 


传统 上 来 说 ， 像 RabbitMQ 这 样 的 消息 代理 能 够 处 理 上 述 两 个 方面 的 问题 。 生 产 者 
(producer) 使 用 API 向 代理 发 布 事件 ， 代 理 也 可 以 向 消费 者 提供 订阅 服务 ， 并 且 在 事件 发 
生 时 通知 消费 者 。 这 种 代理 甚至 可 以 跟踪 消费 者 的 状态 ， 比 如 标记 哪些 消息 是 该 消费 者 已 
经 消费 过 的 。 这 种 系统 通常 具有 较 好 的 可 伸缩 性 和 弹性 ， 但 这 么 做 也 是 有 代价 的 。 它 会 增 
加 开发 流程 的 复杂 度 ， 因 为 你 需要 一 个 额外 的 系统 〈 即 消息 代理 ) 才能 开发 及 测试 服务 。 
你 也 需要 额外 的 机 器 和 专业 知识 来 保持 这 些 基础 设施 的 正常 运行 。 但 一 旦 做 好 了 ， 它 会 是 
实现 松 耦 合 、 事 件 驱 动 架构 的 一 种 非常 有 效 的 方法 。 通 常 来 说 我 很 喜欢 这 种 方式 。 


不 过 需要 注意 的 是 ， 消 息 代 理 仅 仅 是 中 间 件 世界 中 的 一 小 部 分 而 已 。 队 列 本 身 是 很 合理 、 
很 有 用 的 东西 。 但 是 中 间 件 广 商 通常 倾向 于 把 很 多 的 软件 打包 进去 ， 比 如 像 企业 级 服务 总 
线 这 样 的 东西 。 齐 记 这 个 原则 : 尽量 让 中 间 件 保持 简单 ， 而 把 业务 逻辑 放 在 自己 的 服务 中 。 


另 一 种 方法 是 使 用 HTTP 来 传播 事件 。ATOM 是 一 个 符合 REST 规范 的 协议 ， 可 以 通过 它 
提供 资源 聚合 (feed) 的 发 布 服务 ， 而 且 有 很 多 现成 的 客户 端 库 可 以 用 来 消费 该 聚合 。 这 
样 当 客户 服务 发 生 改 变 时 ， 只 需 简单 地 向 该 聚合 发 布 一 个 事件 即 可 。 消 费 者 会 轮 询 该 聚合 
以 查看 变化 。 另 一 方面 ， 现 成 的 ATOM 规范 和 与 之 相关 的 库 用 起 来 非常 方便 ， 而 且 HTTP 
能 够 很 好 地 处 理 伸缩 性 。 但 正如 前 面 所 提 到 的 ，HTTP 不 擅长 处 理 低 延迟 的 场景 ， 而 且 使 
用 ATOM 的 话 ， 用 户 还 需要 自己 追踪 消息 是 否 送 达 及 管理 轮 询 等 工作 。 


我 见 过 很 多 人 花费 大 量 时 间 ， 在 ATOM 上 实现 越 来 越 多 任何 一 个 还 不 错 的 消息 代理 都 能 
够 提供 的 功能 。 举 个 例子 ， 消 费 者 竞争 模式 (Competing Consumer pattern) 描述 了 一 种 
使 用 多 个 工作 者 实例 同时 消费 消息 的 方法 ， 工 作者 实例 的 数量 可 以 增加 ， 而 且 它 们 应 该 
可 以 独立 于 彼此 正常 工作 。 但 是 有 一 种 场景 需要 避免 ， 即 多 个 工作 者 处 理 了 同一 条 消息 ， 
从 而 造成 浪费 。 如 果 使 用 消息 代理 ， 一 个 标准 的 队列 就 可 以 很 好 地 处 理 这 种 场景 。 而 使 
用 ATOM 的 话 ， 就 需要 自己 在 所 有 的 工作 者 之 间 维 护 一 个 共享 的 状态 来 减少 上 述 情况 的 
发 生 。 





如 果 你 已 经 有 了 一 个 好 的 、 具 有 弹性 的 消息 代理 的 话 ， 就 用 它 来 处 理事 件 的 订阅 和 发 布 
吧 。 但 如 果 没 有 的 话 ， 你 可 以 看 一 看 ATOM。 但 要 注意 沉没 成 本 的 陷阱 ， 比 如 当 你 发 现 有 
越 来 越 多 的 消息 代理 可 以 满足 需求 时 ， 就 应 该 在 某 个 时 间 点 做 出 相应 的 调整 。 


关于 异步 协议 使 用 什么 样 的 消息 格式 ， 其 实 需要 考虑 的 因素 和 使 用 同步 通信 时 没什么 区 
别 。 如 果 你 现在 正在 使 用 JSON 作为 请 求 和 响应 的 格式 ， 那 么 可 以 继续 使 用 。 


4.8.2 ”异步 架构 的 复杂 性 

这 些 异 步 的 东西 看 起 来 插 有 趣 的 ， 对 吧 ? 事件 驱动 的 系统 看 起 来 耦合 非常 低 ， 而 且 伸 缩 性 
很 好 。 但 是 这 种 编程 风格 也 会 带 来 一 定 的 复杂 性 ， 这 种 复杂 性 并 不 仅仅 包括 对 消息 的 发 布 
订阅 操作 。 举 个 例子 ， 考 虑 一 个 非常 耗 时 的 异步 请 求 / 响应， 需要 考虑 响应 返回 时 需要 怎 
么 处 理 。 该 响应 是 否 回 到 发 送 请 求 的 那个 节点 ?如 果 是 的 话 ， 节 点 服务 停止 了 怎么 办 ?如 
果 不 是 ， 是 否 需要 把 信息 事先 存储 到 某 个 其 他 地 方 ， 以 便于 做 相应 处 理 ? 如 果 API 设计 得 
好 的 话 ， 短 生命 周期 的 异步 操作 还 是 比较 容易 管理 的 ， 但 尽管 如 此 ， 对 于 习惯 了 进程 间 同 
步调 用 的 程序 员 来 说 ， 使 用 异步 模式 也 需要 思维 上 的 转换 。 


现在 来 看 一 个 大 家 可 以 引 以 为 戒 的 故事 。2006 年 ， 我 在 一 家 银行 帮 客 户 构建 定价 系统 ， 系 
统 需要 根据 市 场 事件 来 决定 投资 组 合 中 的 哪些 项 需要 重新 定价 。 一 旦 确定 了 需要 做 的 事情 
之 后 ， 就 把 它们 全 都 放 到 一 个 销 息 队 列 中 。 当 时 我 们 使 用 一 个 网 格 来 创建 定价 工作 者 池 ， 
这 样 就 可 以 根据 需求 来 调整 定价 集群 的 规模 。 这 些 工作 者 使 用 消费 者 竞争 模式 ， 每 个 工作 
者 都 不 停 地 处 理 这 些 消息 ， 直 到 没有 消息 可 处 理 为 止 。 


系统 运行 起 来 了 ， 我 们 感觉 很 棒 。 但 是 在 某 一 次 发 布 之 后 ， 我 们 遇 到 了 一 个 很 令 人 讨厌 的 
问题 。 我 们 的 工作 者 不 停 地 崩溃 ， 不 停 地 崩溃 ， 不 停 地 崩溃 。 


最 终 我 们 发 现 了 问题 所 在 。 代 码 中 存在 一 个 bug， 某 一 种 定价 请 求 会 导致 工作 者 崩溃 。 我 
们 当时 使 用 了 事务 处 理 队 列 : 当 工 作者 崩溃 之 后 ， 这 个 请 求 上 的 锁 会 超时 ， 然 后 该 请 求 
就 会 被 放 回 到 队列 中 。 另 一 个 工作 者 会 重新 尝试 处 理 该 请 求 ， 然 后 它 也 会 崩溃 。 这 就 
是 Martin Fowler 提 到 的 灾难 性 故障 转移 (catastrophic failover) 的 一 个 典型 例子 (http:// 


martinfowler.com/bliki/CatastrophicFailover.html) 。 


除了 代码 中 的 bug 外 ， 我 们 还 忘 了 设置 一 个 作业 最 大 重 试 次 数 。 所 以 后 面 不 但 修复 了 bug 
本 身 ， 还 设置 了 这 个 最 大 重 试 次 数 。 但 是 我 们 也 意识 到 需要 有 一 种 方式 来 查看 甚至 是 重 发 
这 些 有 问题 的 消息 。 所 以 最 后 实现 了 一 个 消息 医院 (或 者 叫 死 信 队列 )， 所 有 失败 的 消息 
都 会 被 发 送 到 这 里 。 我 们 还 创建 了 一 个 界面 来 显示 这 些 消息 ， 如 果 需 要 的 话 还 可 以 触发 一 
个 重 试 。 如 果 你 只 熟悉 点 到 点 的 同步 通信 ， 就 很 难 快速 发 现 这 个 问题 。 


事件 驱动 架构 和 异步 编程 会 带 来 一 定 的 复杂 性 ， 所 以 我 通常 会 很 谨慎 地 选用 这 种 技术 。 你 
需要 确保 各 个 流程 有 很 好 的 监控 机 制 ， 并 考虑 使 用 关联 ID， 这 种 机 制 可 以 帮助 你 对 跨 进程 
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的 请 求 进行 追踪 ， 第 8 章 会 详细 讨论 这 个 话题 。 
强烈 推荐 你 读 一 读 《 企 业 集 成 模式 》 这 本 书 ， 其 中 详细 讨论 了 很 多 不 同 的 编程 模式 。 


4.9 服务 即 状 态 机 


不 管 你 选择 做 一 个 REST 忍者 ， 还 是 坚持 使 用 像 SOAP 这 样 的 基于 RPC 的 机 制 ， 服 务 即 状 
态 机 的 概念 都 很 强大 。 前 面 提 到 过 (可 能 已 经 提 的 太 多 了 ) 服务 应 该 根据 限界 上 下 文 进行 
划分 。 我 们 的 客户 微服 务 应 该 拥有 与 这 个 上 下 文中 行为 相关 的 所 有 逻辑 。 


当 消费 者 想 要 对 客户 做 修改 时 ， 它 会 向 客户 服务 发 送 一 个 合适 的 请 求 。 客 户 服 务 根据 自己 
的 逻辑 决定 是 否 接受 该 请 求 。 客 户 服务 控制 了 所 有 与 客户 生命 周期 相关 的 事件 。 我 们 想 要 
避免 简单 地 对 CRUD 进行 封装 的 贫血 服务 。 如 果 出 现 了 在 客户 服务 之 外 与 其 进行 相关 的 修 
改 的 情况 ， 那 么 你 就 失去 了 内 聚 性 。 


把 关键 领域 的 生命 周期 显 式 建 模 出 来 非常 有 用 。 我 们 不 但 可 以 在 唯一 的 一 个 地 方 处 理 状 态 
冲突 (比如 ， 尝 试 更 新 已 经 被 移 除 的 用 户 )， 而 且 可 以 在 这 些 状态 变化 的 基础 上 封装 一 些 
行为 。 

我 仍然 认为 基于 HTTP 的 REST 相 比 其 他 集成 技术 更 合理 ， 但 不 管 你 选 的 是 什么 ， 都 要 记 
住 上 面 的 原则 。 


4.10 响应 式 扩展 


响应 式 扩展 (Reactive extensions，Rx) 提供 了 一 种 机 制 ， 在 此 之 上 ， 你 可 以 把 多 个 调用 的 
结果 组 装 起 来 并 在 此 基础 上 执行 操作 。 调 用 本 身 可 以 是 阻塞 或 者 非 阻塞 的 。Rx 改变 了 传 
统 的 流程 。 以 往 我 们 会 获取 一 些 数据 ， 然 后 基于 此 进行 操作 ， 现 在 你 可 以 做 的 是 简单 地 对 
操作 的 结果 进行 观察 ， 结 果 会 根据 相关 数据 的 改变 自动 更 新 。 一 些 Rx 的 实现 允许 你 对 这 
些 被 观察 者 应 用 某 种 函数 变换 , 比如 在 RxJava 中 就 可 以 使 用 类 似 map 或 者 fitLter 这 样 的 经 
典 函数 。 


很 多 Rx 实现 都 在 分 布 式 系统 中 找到 了 归宿 。 因 为 调用 的 细节 被 屏蔽 了 ， 所 以 事情 也 更 容 
易 处 理 。 我 可 以 简单 地 对 下 游 服 务 调用 的 结果 进行 观察 ， 而 不 需要 关心 它 是 阻塞 的 还 是 非 
阻塞 的 ， 唯 一 需要 做 的 就 是 等 待 结果 并 做 出 响应 。 其 漂亮 之 处 在 于 ,我 可 以 把 多 个 不 同 的 
调用 组 合 起 来 ， 这 样 就 可 以 更 容易 地 对 下 游 服 务 的 并 发 调用 做 处 理 。 


当 你 需要 做 一 些 基于 多 个 服务 调用 的 操作 时 ， 尝 试 一 下 适合 你 所 选用 技术 栈 的 响应 式 扩 
展 。 你 会 惊讶 地 发 现 它 让 你 的 代码 变 得 非常 简单 。 





4.11 微服 务 世界 中 的 DRY 和 代码 重用 的 危险 


开发 人 员 对 DRY 这 个 缩写 非常 熟悉 ， 即 Don’t Repeat Yourself。 虽 然 从 字面 上 看 DRY 仅 
仅 是 避免 重复 代码 ， 但 其 更 精确 的 含义 是 避免 系统 行为 和 知识 的 重复 。 一 般 来 讲 这 是 很 合 
理 的 建议 。 如 果 有 相同 的 代码 来 做 同样 的 事情 ， 代 码 规模 就 会 变 大 ， 从 而 降低 可 维护 性 。 
如 果 你 想 要 修改 的 行为 在 系统 的 很 多 部 分 都 有 重复 实现 的 话 ， 那 么 就 很 容易 漏 掉 某 些 部 分 
的 修改 ， 从 而 导致 bug， 所 以 强制 性 地 使 用 DRY 一般 来 讲 是 合理 的 


使 用 DRY 可 以 得 到 重用 性 比较 好 的 代码 。 把 重复 代码 抽取 出 来 ， 然 后 就 可 以 在 多 个 地 方 
进行 调用 。 比 如 说 可 以 创建 一 个 随处 可 用 的 共享 库 。 但 是 这 个 方法 在 微服 务 的 架构 中 可 能 
是 危险 的 。 


我 们 想 要 避免 微服 务 和 消费 者 之 间 的 过 度 耦 合 ， 否 则 对 微服 务 任何 小 的 改动 都 会 引起 消费 
方 的 改动 。 而 共享 代码 就 有 可 能 会 导致 这 种 耦合 。 比 如 ， 客 户 端 可 以 通过 库 共享 其 中 表示 
系统 核心 实体 的 公共 领域 对 象 ， 而 所 有 的 服务 也 会 使 用 这 个 库 。 所 以 当 任 何 部 分 需要 对 库 
做 修改 时 ， 都 会 引起 其 他 部 分 的 重新 部 署 。 如 果 你 的 系统 通过 消息 队列 进行 通信 ， 那 么 你 
需要 过 滤 (由 不 同步 的 部 署 导致 的 ) 失效 的 内 容 ， 忘 记 这 么 做 会 引起 严重 的 问题 。 


跨 服务 共用 代码 很 有 可 能 会 引入 耦合 。 但 使 用 像 日 志 库 这 样 的 公共 代码 就 没什么 问题 ， 因 
为 它们 对 外 是 不 可 见 的 。Realestate.com.au 使 用 了 很 多 深度 定制 化 的 服务 模板 来 快速 创建 
新 服务 。 他 们 不 会 在 服务 之 间 共 用 代码 ， 而 是 把 这 些 代 码 复 制 到 每 个 新 的 服务 中 ， 以 防止 


我 的 经 验 是 : 在 微服 务 内 部 不 要 违反 DRY， 但 在 跨 服务 的 情况 下 可 以 适当 违反 DRY。 服 
务 之 间 引 入 大 量 的 耦合 会 比重 复 代 码 带 来 更 糟糕 的 问题 。 但 这 的 确 是 一 个 值得 进一步 探索 
的 问题 。 


客户 端 库 
很 多 团队 坚持 在 最 开始 的 时 候 为 服务 开发 一 个 客户 端 库 。 原 因 在 于 ， 这 样 不 仅 能 简化 对 服 
务 的 使 用 ， 还 能 避免 不 同 消费 者 之 间 存 在 重复 的 与 服务 交互 的 代码 。 


这 么 做 的 问题 在 于 ， 如 果 开 发 服务 端 API 和 客户 端 API 的 是 同一 批 人 ， 那 么 服务 端的 逻辑 
就 有 可 能 泄露 到 客户 端 中 。 我 对 此 很 清楚 ， 因 为 我 以 前 就 这 么 做 过 。 潜 入 客户 端 库 的 逻辑 
越 多 ， 内 聚 性 就 越 差 ， 然 后 你 必须 在 修复 一 个 服务 端 问题 的 同时 ， 也 需 对 多 个 客户 端 进行 
修改 。 这 样 做 也 会 限制 技术 的 选择 ， 尤 其 是 当 你 强制 消费 方 使 用 该 客户 端 库 时 。- 


我 喜欢 AWS (Amazon Web Service) 使 用 的 那 种 客户 端 库 的 模式 。 它 允许 你 直接 使 用 底 
层 的 SOAP 或 者 REST 接口 ， 但 事实 上 所 有 人 最 终 都 会 使 用 SDK (Software Development 
Kits， 软 件 开发 工具 箱 )， 该 SDK 对 底层 API 进行 了 抽象 。 值 得 一 提 的 是 ， 这 些 SDK 要 么 
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是 由 社区 提供 的 ， 要 么 是 由 API 开 发 团队 之 外 的 的 AWS 员工 开发 的 。 这 种 程度 的 分 离 
似乎 是 有 效 的 ， 它 避免 了 使 用 客户 端 库 的 一 些 问题 。 该 模式 效果 很 好 ， 其 中 一 部 分 原因 
是 客户 端 自主 决定 何 时 进行 升级 。 如 果 你 一 定 要 使 用 客户 端 库 ， 请 确保 使 用 这 种 正确 的 
方式 。 


Netflix 非常 强调 客户 端 库 的 使 用 ， 但 千 万 不 要 简单 地 认为 其 目的 仅仅 是 避免 代码 重复 。 事 
实 上 ，Netflix 使 用 客户 端 库 的 另 一 个 同等 重要 的 (如果 不 是 更 重要 的 ) 原因 是 ， 保 证 系统 
的 可 靠 性 和 可 伸缩 性 。Netflix 的 客户 端 库 会 处 理 类 似 服务 发 现 、 故 障 模式 、 日 志 等 方面 
的 工作 ， 可 以 看 到 这 些 方面 与 服务 本 身 的 职责 并 没有 什么 关系 。 如 果 不 使 用 这 些 共享 客户 
端 ，Netflix 就 很 难保 证 客户 端 和 服务 器 之 间 的 通信 能 够 在 规模 化 的 情况 下 正常 工作 。 这 些 
库 在 Netflix 中 的 使 用 大 大 减少 了 初始 搭建 的 工作 量 ， 并 提高 了 生产 率 ， 同 时 也 能 确保 系统 
能 正常 工作 。 然 而 ， 至 少 有 一 个 来 自 Netflix 的 员工 表示 ， 经 过 一 段 时 间 之 后 ， 这 种 做 法 还 
是 引入 了 客户 端 和 服务 器 之 间 一 定 程度 的 耦合 ， 并 产生 了 一 些 问 题 。 


如 果 你 想 要 使 用 客户 端 库 ， 一 定 要 保证 其 中 只 包含 处 理 底层 传输 协议 的 代码 ， 比 如 服务 发 
现 和 故障 处 理 等 。 千 万 不 要 把 与 目标 服务 相关 的 逻辑 放 到 客户 端 库 中 。 想 清楚 你 是 否 要 坚 
持 使 用 客户 端 库 ,或 者 你 是 否 允 许 别人 使 用 不 同 的 技术 栈 来 对 底层 API 进行 调用 。 最 后 ， 
确保 由 客户 端 来 负责 何 时 进行 客户 端 库 的 升级 ， 这 样 才 能 保证 每 个 服务 可 以 独立 于 其 他 服 
务 进行 发 布 ! 


4.12 按 引 用 访问 


如 何 传递 领域 实体 的 相关 信息 是 一 个 值得 讨论 的 话题 。 很 重要 的 一 个 想法 是 ， 微 服务 应 
该 包含 核心 领域 实体 (比如 客户 ) 全 生命 周期 的 相关 操作 。 前 面 讨论 了 把 与 客户 有 关 的 
逻辑 放 在 客户 服务 中 的 重要 性 。 在 这 种 设计 下 ， 如 果 想 要 做 任何 与 客户 相关 的 改动 ， 就 
必须 向 客户 服务 发 起 请 求 。 它 遵守 了 一 个 原则 ， 即 客户 服务 应 该 是 关于 客户 信息 的 唯一 
可 靠 来 源 。 


想象 这 样 一 个 场景 ， 你 从 客户 服务 获取 了 一 个 客户 资源 ， 那 么 就 能 看 到 该 资源 在 你 发 起 请 
求 那 一 刻 的 样子 。 但 是 有 可 能 在 你 发 送 了 请 求 之 后 ， 其 他 人 对 该 资源 进行 了 修改 ， 所 以 你 
所 持 有 的 其 实 是 该 客户 资源 曾经 的 样子 。 你 持 有 这 个 资源 的 时 间 越 入， 其 内 容 失 效 的 可 能 
性 就 越 高 。 当 然 ， 避 免 不 必 要 的 数据 请 求 可 以 让 系统 更 高 效 。 

有 了 时 候 使 用 本 地 副本 没什么 问题 ， 但 在 其 他 场景 下 你 需要 知道 该 副本 是 否 已 经 失效 。 所 以 
当 你 持 有 一 个 本 地 副本 时 ， 请 确保 同时 持 有 一 个 指向 原始 资源 的 引用 ， 这 样 在 你 需要 的 时 
候 就 可 以 对 本 地 副本 进行 更 新 。 

考虑 这 样 一 个 例子 : 发 货 之 后 需要 请 求 邮件 服务 来 发 送 一 封 邮件 。 一 种 做 法 是 ， 把 客户 的 
邮件 地 址 、 姓 名 、 订 单 详情 等 信息 发 送 到 邮件 上 服务。 但 是 邮件 服务 有 可 能 会 将 这 个 请 求 放 





入 队列 ， 然 后 在 将 来 的 某 个 时 间 再 从 队列 中 取出 来 ; 在 这 个 时 间 差 中 ， 客 户 和 订单 的 信息 
有 可 能 就 会 发 生变 化 。 更 合理 的 方式 应 该 是 ， 仅 仅 发 送 表 示 客 户 资源 和 订单 资源 的 URI， 
然后 等 邮件 服务 器 就 绪 时 再 回 过 头 来 查询 这 些 信息 。 


在 考虑 基于 事件 的 协作 时 ,你 会 发 现 一 个 很 棒 的 对 位 (counterpoint)“。 使 用 事件 时 ,不 仅 需 
要 知道 该 事件 是 否 发 生 ， 还 需要 知道 到 底 发 生 了 什么 。 所 以 当 收 到 一 个 客户 资源 变化 的 更 
新 事件 时 ， 我 想 要 知道 事件 发 生 时 该 客户 的 状态 。 同 时 为 了 能 够 在 处 理事 件 时 得 到 资源 的 
最 新 状态 ， 也 应 该 拥有 该 实体 的 引用 以 便于 查询 。 


当然 在 使 用 引用 时 也 需要 做 一 些 取舍 。 如 果 总 是 从 客户 服务 去 查询 给 定 客户 的 相关 信息 ， 
那么 客户 服务 的 负载 就 会 过 大 。 如 果 在 获取 资源 的 同时 ， 可 以 得 到 资源 的 有 效 性 时 限 ( 即 
该 资源 在 什么 时 间 之 前 是 有 效 的 ) 信息 的 话 ， 就 可 以 进行 相应 的 缓存 ， 从 而 减 小 服务 的 负 
载 。HTTP 在 缓存 控制 方面 提供 了 很 多 现成 的 支持 ， 第 11 章 会 讨论 其 中 的 一 些 措施 。 


男 一 个 问题 是 ， 有 些 服务 可 能 不 需要 知道 整个 客户 资源 ， 所 以 坚持 进行 查询 这 种 方式 会 引 
入 潜在 的 耦合 。 有 人 提出 邮件 服务 器 应 该 更 加 简单 ， 只 需要 简单 地 把 邮件 地 址 和 客户 名 称 
发 给 它 就 可 以 了 。 我 认为 这 里 并 不 存在 非常 明确 的 统一 规则 ， 原 则 上 来 说 ， 应 该 在 不 确定 
数据 是 否 能 够 保持 有 效 的 情况 下 ， 谨 慎 地 进行 处 理 。 


4.13 版 本 管理 


每 次 提 及 微服 务 的 时 候 ， 都 会 有 人 问 我 如 何 做 版 本 管理 。 大 家 担心 服务 的 接口 难免 发 生 改 
变 ， 那 么 如 何 管理 这 些 改变 呢 ? 让 我 们 把 这 个 问题 划分 成 一 些 更 小 的 问题 ， 然 后 看 看 如 何 
对 每 一 个 进行 针对 性 处 理 。 


4.13.1 尽 可 能 推迟 

减 小 破坏 性 修改 影响 的 最 好 办 法 就 是 尽量 不 要 做 这 样 的 修改 。 本 章 讨论 了 很 多 不 同 的 集成 
技术 ， 你 可 以 通过 选用 正确 的 技术 来 做 到 这 一 点 。 比 如 数据 库 集 成 很 容易 引入 破坏 性 的 修 
改 。 然 而 REST 就 好 得 多 ， 因 为 对 于 内 部 实现 的 修改 不 太 容 易 引 起 服务 接口 的 变化 。 


另 一 个 延迟 破坏 性 修改 的 关键 是 鼓励 客户 端的 正确 行为 ， 避 免 过 早 地 将 客户 端 和 服务 端 紧 
密 绑 定 起 来 。 落 虑 邮件 服务 这 个 例子 ， 它 会 时 不 时 地 向 客户 发 送 邮件 。 假 设 现 在 它 得 到 了 
一 个 指令 : 发 送 “ 订 单 已 发 送 ”的 邮件 给 ID 为 1234 的 客户 。 它 会 使 用 该 ID 获取 客户 信 
息 ， 然 后 得 到 类 似 示例 4-3 中 的 响应 。 


注 3: 对 位 原 指 音乐 创作 中 ， 使 两 条 或 者 更 多 条 相互 独立 的 旋律 同时 发 声 并 且 彼 此 融洽 的 技术 ， 这 里 比喻 同 
时 做 两 件 事情 并 达到 很 好 的 效果 。 译 者 注 
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示例 4-3; 客户 服务 响应 示例 由 
<CUStomer> 
<firstname>Sam</firstname> 
<Lastname>Newman</Lastname> 
<email>sam@magpiebrain.com</email> 
<telephoneNumber>555-1234-5678</telephoneNumber> 
</cust6mer> 


发 送 邮件 需要 名 、 姓 和 邮件 地 址 等 信息 ， 但 不 需要 电话 号 码 。 我 们 希望 能 够 简单 地 得 到 所 
需要 的 那些 字段 ， 而 忽略 剩余 的 。 一 些 强 类 型 语言 会 使 用 一 些 绑 定 技术 ， 这 种 技术 会 将 所 
有 字段 进行 自动 绑 定 ， 无 论 消 费 者 是 否 需要 。 如 果 我 们 意识 到 ， 设 有 人 在 使 用 电话 号 码 这 
个 字段 并 决定 要 删除 它 ， 有 些 消 费 者 可 能 就 会 受到 不 必要 的 影响 。 


类 似 地 ， 如 果 想 要 重新 构造 客户 对 象 来 添加 更 多 细节 (如 示例 4-4 所 示 )， 又 会 发 生 什么 
呢 ? 邮件 服务 必 所 需要 的 数据 还 在 那里 ， 名 字 也 相同 ， 但 是 ， 如 果 我 们 的 代码 只 会 去 某 
个 指定 的 位 置 寻 找 名 和 姓 的 信息 ， 就 会 发 生 错误 。 在 这 个 例子 中 ， 可 以 使 用 XPath 来 从 
中 提取 出 想 要 的 信息 ， 这 样 字 段 的 位 置 就 可 以 更 加 灵活 。 这 种 读 取 器 的 实现 能 够 忽略 我 
们 不 在 乎 的 那些 修改 ，Martin Fowler 称 其 为 容错 性 读 取 器 (http://martinfowler.com/bliki/ 
TolerantReader.html) 。 


示例 4-4: 对 客户 资源 的 重新 构造 : 数据 都 还 在 ， 但 是 消费 者 能 够 找到 它 妈 ? 
<CUStomer> 
<naming> 
<firstname>Sam</firstname> 
<lastname>Newman</lastname> 
<nickname>Magpiebrain</nickname> 
<fullname>Sam "Magpiebrain" Newman</fullname> 
</naming> 
<email>sam@magpiebrain.com</email> 
</customer> 


客户 端 尽 可 能 灵活 地 消费 服务 响应 这 一 点 符合 Postel 法 则 (也 叫 作 鲁 棒 性 原则 ，https:// 
tools.ietf.org/html/rfc761)。 该 法 则 认为 ， 系 统 中 的 每 个 模块 都 应 该 “ 宽 进 严 出 ”， 即 对 自己 
发 送 的 东西 要 严格 ， 对 接收 的 东西 则 要 宽容 。 这 个 原则 最 初 的 上 下 文 是 网 络 设备 之 间 的 交 
互 ， 因 为 在 这 个 场景 中 ， 所 有 奇怪 的 事情 都 有 可 能 发 生 。 在 请 求 /响应 的 场景 下 ， 该 原则 
可 以 帮助 我 们 在 服务 发 生 改 变 时 ,减少 消费 方 的 修改 。 


4.13.2 ”及 早 发 现 破坏 性 修改 

及 早 发 现 会 对 消费 者 产生 破坏 的 修改 非常 重要 ， 因 为 即使 使 用 最 好 的 技术 ， 也 难以 避免 破 
坏 性 修改 的 出 现 。 我 强烈 建议 使 用 销 费 者 驱动 的 契约 来 及 早 定位 这 些 问 题 ， 第 7 章 会 对 该 
技术 做 详细 的 讲解 。 如 果 你 支持 多 种 不 同 的 客户 端 库 ， 那 么 最 好 针对 最 新 的 服务 对 所 有 的 





客户 端 运行 测试 。 一 旦 意识 到 ， 你 可 能 会 对 某 一 个 消费 者 造成 破坏 ， 那 么 可 以 选择 要 么 尽 
量 避 免 该 破坏 性 修改 ， 要 么 接受 它 ， 并 跟 维护 这 些 服 务 的 人 员 好 好 聊 一 聊 。 


4.13.3 ”使 用 语义 化 的 版 本 管理 

如 果 一 个 客户 端 能 够 仅仅 通过 查看 服务 的 版 本 号 ， 就 知道 它 是 否 能 够 与 之 进行 集成 ， 那 就 
太 棒 了 ! 语义 化 版 本 管理 (http://semver.org/) 就 是 一 种 能 够 支持 这 种 方式 的 规格 说 明 。 语 
义 化 版 本 管理 的 每 一 个 版 本 号 都 遵循 这 样 的 格式 : MAJOR.MINOR.PATCH。 其 中 MAJOR 的 改变 
意味 着 其 中 包含 向 后 不 兼容 的 修改 ，MINOR 的 改变 意味 着 有 新 功能 的 增加 ， 但 应 该 是 向 后 
兼容 的 ;最 后 ，PATCH 的 改变 代表 对 已 有 功能 的 缺陷 修复 。 


为 了 更 好 地 理解 语义 化 版 本 管理 ， 让 我 们 来 看 一 个 简单 的 用 例 。 帮 助 台 应 用 能 够 与 1.2.0 
版 本 的 客户 服务 一 起 使 用 。 如 果 新 功能 的 增加 引起 了 客户 服务 的 版 本 变 成 了 1.3.0， 那 么 帮 
助 台 应 用 不 应 该 看 到 任何 行为 的 变化 ， 并 且 自 身 也 不 需要 做 任何 改动 。 由 于 当前 的 客户 端 
可 能 会 依赖 于 在 1.2.0 版 本 中 新 加 入 的 功能 ， 所 以 不 能 保证 ， 现 在 的 版 本 可 以 和 1.1.0 版 本 
的 客户 服务 一 起 工作 。 当 客户 服务 升级 到 2.0.0 版 本 时 ， 本 地 应 用 程序 应 该 也 需要 做 相应 
的 修改 。 


你 可 能 会 决定 在 服务 中 使 用 语义 化 版 本 ， 如 果 使 用 下 一 节 中 描述 的 那 种 共存 方式 ， 那 么 其 
至 可 以 针对 某 个 特定 的 接口 做 版 本 管理 。 


这 个 版 本 管理 策略 允许 我 们 把 很 多 的 信息 和 期 望 打包 到 三 个 字段 中 。 完 整 的 规范 大 纲 就 是 
简单 的 三 个 数字 的 变化 ， 这 个 规范 可 以 简化 检查 版 本 兼容 性 的 流程 。 不 幸 的 是 ， 我 还 没有 
在 分 布 式 系统 中 见 到 很 多 这 样 用 的 例子 。 


4.13.4 不同 的 接口 共存 

如 果 已 经 做 了 可 以 做 的 所 有 事情 来 避免 对 接口 的 修改 (但 还 是 无 法 避免 )， 那 么 下 一 步 的 
任务 就 是 限制 其 影响 。 我 们 不 想 强迫 客户 端 跟随 服务 端 一 起 升级 ， 因 为 希望 微服 务 可 以 独 
立 于 彼此 进行 发 布 。 我 用 过 的 一 种 比较 成 功 的 方法 是 ， 在 同一 个 服务 上 使 新 接口 和 老 接口 
同时 存在 。 所 以 在 发 布 一 个 破坏 性 修改 时 ， 可 以 部 署 一 个 同时 包含 新 老 接口 的 版 本 。 


这 可 以 帮助 我 们 尽快 发 布 新 版 本 的 微服 务 ， 其 中 包含 了 新 的 接口 ， 同 时 也 给 了 消费 者 时 间 
做 迁移 。 一 旦 所 有 的 消费 者 不 再 访问 老 的 接口 ， 就 可 以 删除 掉 该 接口 及 相关 的 代码 ， 如 图 
4-5 所 示 。 
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仅 支持 单个 版 本 的 接口 新 的 发 布 暴露 了 一 日 老 的 接口 不 再 有 人 
新 版 的 接口 使 用 ， 则 在 新 的 发 布 中 
就 可 以 去 掉 它 们 














图 4-5: 某 个 接口 的 不 同 版 本 同时 存在 ， 允 许 消费 者 进行 逐步 的 迁移 


在 我 使 用 这 种 方法 的 上 一 个 项 目 中 ， 随 着 消费 者 数量 的 增加 和 破坏 性 修改 次 数 的 增加 ， 情 
况 开 始 变 得 有 些 混 乱 。 事 实 上 ， 我 们 同时 维护 了 三 个 版 本 的 接口 ， 当 然 不 推荐 这 样 做 ! 维 
护 多 份 代码 及 相关 的 测试 完全 是 额外 的 负担 。 为 了 使 其 更 可 控 ， 我 们 在 内 部 把 所 有 对 V1 
的 请 求 进行 转换 处 理 ， 然 后 去 访问 V2， 继 而 V2 再 去 访问 V3。 使 用 这 种 方式 后 ， 以 后 应 
该 删除 哪些 代码 也 就 比较 清楚 了 。 


这 其 实 就 是 一 个 扩展 /收缩 模式 的 实例 ， 它 允许 我 们 对 破坏 性 修改 进行 平 请 的 过 度 。 首 先 
扩张 服务 的 能 力 ， 对 新 老 两 种 方式 都 进行 支持 。 然 后 等 到 老 的 消费 者 都 采用 了 新 的 方式 ， 
再 通过 收缩 API 去 掉 旧 的 功能 。 


如 果 采 用 这 种 不 同 版 本 接口 共存 的 方式 ， 你 需要 一 种 方法 来 对 不 同 的 请 求 进行 路 由 。 对 于 
使 用 HTTP 的 系统 来 说 ， 可 以 在 请 求 中 添加 版 本 信息 ， 也 可 以 将 其 添加 在 URI 中 ， 比 如 
/ylcustomer/ 和 /v2/customer/。 我 也 很 犹 隔 采用 哪 种 方法 。 一 方面 ， 我 不 希望 客户 端的 代 
码 对 URI 模板 进行 硬 编码 ， 但 从 另 一 方面 来 看 ， 这 种 方法 确实 非常 明确 ， 请 求 路 由 也 比 
较 容 易 。 


对 于 RPC 来 说 ， 事 情 会 更 加 棘手 。 我 以 前 使 用 过 protocol buffers 来 把 方法 放 到 不 同 的 命名 
空间 中 。 比 如 vi.createCustomer 和 v2.createCustomer。 但 是 当 你 尝试 在 网 络 上 对 相同 类 
型 的 不 同 版 本 进行 传输 时 ， 就 会 非常 痛苦 。 


4.13.5 同时 使 用 多 个 版 本 的 服务 
另 一 种 经 常 被 提起 的 版 本 管理 的 方法 是 ， 同 时 运行 不 同 版 本 的 服务 ， 然 后 把 老 用 户 路 由 到 
老 版 本 的 服务 ， 而 新 用 户 可 以 看 到 新 版 本 的 服务 ， 如 图 4-6 所 示 。 当 改变 老 用 户 的 代价 过 
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高 时 ，Netflix 会 保守 地 采用 这 种 方式 ， 尤 其 在 某 些 场景 下 ， 遗 留 的 设备 会 与 老 版 本 的 API 
强行 绑 定 。 我 个 人 不 太 喜 欢 这 个 想法 ， 也 理解 为 什么 用 Netflix 的 很 少 。 首 先 ， 如 果 我 需要 
修复 一 个 服务 内 部 的 bug， 需 要 修复 两 个 版 本 ， 并 做 两 次 部 署 。 而 且 我 很 可 能 也 需要 在 代 
码 库 中 拉 分 支 ， 这 无 疑 会 引入 很 多 问题 。 基 次， 把 用 户 路 由 到 正确 的 服务 中 去 也 是 一 件 比 
较 复杂 的 事情 。 想 要 实现 这 一 点 ， 要 么 寻求 中 间 件 的 帮助 ， 要 么 自己 写 很 多 的 nginx 脚本 ， 
但 这 样 做 的 话 系 统 会 难以 理解 和 管理 。 最 后 ， 考 虑 服务 中 可 能 需要 管理 的 持久 化 状态 。 不 
同 版 本 的 服务 创建 的 用 户 ， 都 需要 被 存储 在 同一 个 数据 库 中 ， 并 且 它 们 对 于 不 同 的 服务 均 
可 见 ， 这 可 能 会 引入 更 多 的 复杂 性 。 




















图 4-6: 运行 多 个 版 本 的 同一 个 服务 来 支持 老 的 接口 


短期 内 同时 使 用 两 个 版 本 的 服务 是 合理 的 ， 尤 其 是 当 你 做 蓝 绿 部 署 或 者 金 丝 和 从 发 布 时 〈 第 
7 章 会 详细 讨论 这 些 模 式 )。 在 这 些 情况 下 ， 不 同 版 本 的 服务 可 能 只 会 共存 几 分 钟 或 者 儿 个 
小 时 ， 而 且 一 般 只 会 有 两 个 版 本 。 升 级 消费 者 到 新 版 本 的 时 间 越 长 ， 就 越 应 该 考虑 在 同一 
个 微服 务 中 暴露 两 套 API 的 做 法 。 我 对 于 共存 两 个 服务 的 这 种 做 法 ， 是 否 适用 于 一 般 的 项 
目 保持 怀疑 态度 。 


4.14 用户 界 面 


到 目前 为 止 还 没有 提 及 用 户 界面 。 有些 人 可 能 会 向 客户 提供 又 冷 又 硬 的 试验 性 API， 但 更 
多 的 人 会 尝试 创建 漂亮 的 、 工 作 良 好 的 用 户 界面 来 满足 客户 。 但 最 重要 的 其 实 是 ， 考 虑 该 
界面 是 否 能 够 很 好 地 支持 服务 之 间 的 集成 。 毕 竟 用 户 界面 是 连接 各 个 微服 务 的 工具 ， 而 只 
有 把 各 个 服务 集成 起 来 才能 真正 地 为 客户 创造 价值 。 
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当 我 刚 开 始 进入 这 个 行业 时 ， 做 的 大 多 是 一 些 桌 面 端 运行 的 胖 客 户 端 。 为 了 能 让 软件 尽 可 
能 好 用 ， 我 花费 了 很 多 时 间 。 一 开始 用 的 是 Motif， 后 来 改 成 了 Swing。 这 些 系统 经 常 做 的 
事情 就 是 创建 和 修改 本 地 文件 ， 但 是 很 多 软件 也 有 服务 端的 组 件 。 我 在 ThoughtWorks 的 
第 一 份 工 作 就 是 ， 基 于 Swing 开发 POS 机 系统 ， 当 然 这 个 系统 也 仅仅 是 另 一 个 更 大 的 系统 
的 一 部 分 而 已 ， 而 这 些 系统 大 部 分 都 在 服务 端 。 


然后 Web 时 代 到 来 了 。 我 们 开始 考虑 是 否 应 该 让 UI 变 得 比较 蒲 ， 而 把 更 多 的 逻辑 放 在 服 
务 端 。 刚 开始 ， 服 务 端 程序 会 泻 染 好 整个 页 面 ， 然 后 一 次 性 发 送 回 客户 端的 浏览 器 ， 所 
以 浏览 器 端 要 做 的 事情 就 很 有 限 。 用 户 通 过 点 击 链接 或 者 填写 表单 来 触发 一 些 GET 和 
POST 请 求 ， 从 而 把 事情 交 给 服务 端 处 理 。 随 着 时 间 的 推移 ， 基 于 浏览 器 的 UI 更 多 地 采用 
JavaScript 来 添加 动态 行为 ， 有 些 应 用 程序 已 经 开始 变 得 跟 老 式 的 桌面 客户 端 一 样 腔 肿 了 。 


4.14.1 走向 数字 化 

在 过 去 几 年 中 ， 很 多 组 织 开 始 认为 ， 不 应 该 对 网 页 端 和 移动 端 区 别 对 待 ， 相 反应 该 对 数字 
化 策略 做 全 局 考虑 ， 即 如 何 让 客户 更 好 地 使 用 我 们 的 服务 。 这 对 系统 架构 又 有 什么 样 的 影 
响 呢 ? 由 于 很 难 预 测 用 户 会 怎样 使 用 我 们 的 API， 所 以 很 多 公司 会 倾向 于 把 API 设计 得 比 
较 细 粒度 化 ， 比 如 使 用 微服 务 架 构 所 暴露 出 来 的 那些 API。 通 过 把 服务 的 功能 进行 不 同 的 
组 合 ， 可 以 为 桌面 应 用 程序 、 移 动 端 设备 、 可 穿戴 设备 的 客户 提供 不 同 的 体验 ， 如 果 客 户 
来 到 实体 店 ， 甚 至 还 可 以 通过 这 种 组 合 提供 更 加 真实 的 体验 。 


从 组 合 的 角度 来 考虑 用 户 界面 ， 如 果 把 我 们 提供 的 能 力 看 成 是 不 同 的 绳索 ， 组 合 就 是 把 它 
们 编织 起 来 。 那 么 如 何 才 能 将 其 很 好 地 编织 起 来 呢 ? 


4.14.2 ”约束 


在 用 户 与 系统 之 间 ， 需 要 考虑 不 同 的 交互 形式 中 存在 的 一 些 约束 。 比 如 在 桌面 Web 应 用 
中 ， 需 要 考虑 与 用 户 浏 览 器 及 屏幕 解析 度 相关 的 约束 。 但 移动 端 会 带 来 一 些 新 的 约束 。 移 
动 应 用 与 服务 器 之 间 不 同 的 通信 方式 会 产生 不 同 的 效果 。 移 动 网 络 的 带宽 可 能 会 有 一 定 的 
限制 ， 但 并 非 仅 有 的 限制 。 有 些 交互 方式 可 能 会 导致 电池 电量 消耗 过 快 ， 从 而 导致 客户 的 
流失 。 


在 不 同 的 平台 上 与 应 用 程序 的 交互 方式 也 有 所 不 同 。 比 如 我 们 很 难 在 平板 上 进行 右 击 操 
作 ， 而 大 多 数 情 况 ， 在 手机 上 应 该 可 以 使 用 单 手 进行 操作 ， 其 中 大 部 分 的 操作 应 该 使 用 拇 
指 进行 控制 。 而 在 带宽 情况 不 够 好 的 地 方 ， 可 以 允许 人 们 通过 短信 与 服务 进行 交互 。 比 如 
在 很 多 发 展 中 国家 ， 短 信 作 为 应 用 程序 入 口 的 做 法 还 是 很 普遍 的 。 


所 以 ， 尽 管 我 们 的 核心 服务 可 能 是 一 样 的 ， 但 仍 需 要 应 对 不 同 应 用 场景 的 约束 。 在 考虑 不 
同 风格 的 用 户 界面 组 合 时 ， 需 要 保证 它们 做 到 了 这 一 点 。 接 下 来 看 几 个 用 户 界面 的 例子 。 











4.14.3 ”API 组 合 

假设 我 们 的 服务 彼此 之 间 已 经 通过 XML 或 者 JSON 通信 了 ， 那 么 可 以 让 用 户 界面 直接 与 
这 个 API 进行 交互 ， 如 图 4-7 所 示 。 一 个 基于 Web 的 UI 可 以 使 用 JavaScript 的 GET 请 
求 来 获取 数据 ， 及 通过 POST 请 求 来 更 改 数据 。 即 使 原生 移动 应 用 也 可 以 很 容易 地 使 用 
HTTP。 然 后 UI 会 创建 不 同 的 组 件 来 处 理 与 服务 之 间 状 态 的 同步 等 工作 。 使 用 二 进 制 协议 
作为 服务 之 间 的 通信 方式 ， 对 于 基于 Web 的 客户 端 可 能 会 不 太 友 好 ， 但 对 于 原生 移动 设备 
来 说 是 可 接受 的 。 
















<album> 
<artist>TheBrakes</artist> 





<customer> 


<firstname>Bob</firstname> pan ba 


</customer> 
<recommendations> 


<artist>QOTSA</artist> 


</recommendations> 











图 4-7: 使 用 多 个 API 来 表示 用 户 界面 


这 种 方式 有 一 些 问题 。 首 先 很 难为 不 同 的 设备 定制 不 同 的 响应 。 比 如 ， 移 动 商 店 所 需要 的 
数据 和 帮助 台 应 用 所 需要 的 数据 就 有 可 能 不 同 。 一 个 解决 方案 是 ， 允 许 客户 指定 它 想 要 哪 
些 字段 ,但 这 就 需要 每 个 服务 都 支持 这 种 交互 方式 。 


另 一 个 关键 的 问题 是 : 谁 来 创建 用 户 界面 ? 维护 服务 的 人 往往 不 是 服务 的 使 用 者 。 举 个 例 
子 ， 如 果 UI 是 另 一 个 团队 创建 的 ， 我 们 可 能 会 退回 到 以 前 那 种 分 层 合作 模式 ， 在 这 种 模 
式 下 即使 很 小 的 修改 都 需要 多 个 团队 的 参与 。 

这 种 通信 模式 非常 繁琐 。 与 服务 之 间 过 多 的 交互 对 移动 设备 来 说 会 有 些 吃力 ， 而 且 对 使 用 流 
量 套餐 的 用 户 来 说 也 很 不 利 ! 使 用 API 入 口 (gateway) 可 以 很 好 地 缓解 这 一 问题 ， 在 这 种 
模式 下 多 个 底层 的 调用 会 被 聚合 成 为 一 个 调用 ， 当 然 它 也 有 一 定 的 局 限 性 ， 后 面 会 做 讨论 。 


4.14.4 UI 片段 的 组 合 
相 比 UI 主动 访问 所 有 的 API， 然 后 再 将 状态 同步 到 UI 控件 ， 另 一 种 选择 是 让 服务 直接 暴 
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露出 一 部 分 UI， 然 后 只 需要 简单 地 把 这 些 片 段 组 合 在 一 起 就 可 以 创建 出 整体 UI， 如 图 4-8 
所 示 。 举 个 例子 ， 推 荐 服务 可 以 提供 一 个 嵌入 到 其 他 UI 控件 中 的 推荐 窗口 控件 。 比 如 在 
网 页 上 就 可 以 柑 入 这 样 一 个 控件 。 









由 服务 提供 的 UI 组 件 











4-8: 服务 直接 提供 UI 组 件 以 供 组 装 之 用 


这 种 方式 有 一 个 工作 得 很 好 的 变种 ， 即 将 一 系列 粗 粒 度 的 UI 部 分 组 装 起 来 。 也 就 是 说 不 
再 创建 小 部 件 ， 而 是 对 胖 客 户 端 应 用 的 所 有 内 容 或 一 个 网 站 的 所 有 页 面 进行 组 装 。 


这 些 粗 粒 度 的 片段 由 服务 端 程序 提供 ， 而 这 些 程序 又 会 去 调用 相关 的 API。 当 片段 与 团队 
所 有 权 匹 配 得 比较 好 时 ， 这 个 模型 可 以 很 好 地 进行 工作 。 比 如 ， 也 许 音乐 商店 的 订单 管理 
团队 可 以 对 所 有 与 订单 管理 相关 的 页 面 负责 。 


你 仍然 需要 某 种 组 装 层 来 把 这 些 片 段 拉 到 一 起 ， 可 以 使 用 类 似 服务 端 模 板 的 技术 轻松 地 做 
到 。 或 者 当 你 从 很 多 不 同 的 应 用 拉 取 页 面 时 ， 需 要 某 种 智能 的 URI 路 由 。 


这 种 方式 的 一 个 关键 优势 是 ， 修 改 服 务 团队 的 同时 可 以 维护 这 些 UI 片段 。 它 允许 我 们 快 
速 完 成 修改 ， 但 这 种 方式 也 有 一 些 问题 。 

首先 ， 保 证 用 户 体验 的 一 致 性 很 重要 。 用 户 想 要 一 个 无 缝 的 体验 ， 而 不 是 在 应 用 的 不 同 部 
分 得 到 不 同感 受 及 设计 语言 。 然 而 有 一 些 技术 可 以 避免 这 些 问 题 ， 比 如 活 样式 指导 (living 
style guides)， 即 将 HTML 组 件 、CSS 及 图 片 等 资源 进行 共享 ， 从 而 使 其 共有 一 定 程度 的 
一 禾 性 。 


接 下 来 的 问题 比较 环 手 。 原 生 应 用 和 胖 客 户 无 法 消费 服务 端 提 供 的 UI 组 件 。 一 种 解决 方 





法 是 ， 使 用 混合 方式 在 原生 应 用 中 典 入 HTML 来 重用 一 些 服务 端 组 件 ， 但 这 种 方式 会 使 用 
户 体验 欠 佳 。 如 果 你 需要 的 是 原生 应 用 的 体验 ， 那 就 必须 自己 对 API 进行 请 求 ， 然 后 在 本 
地 创建 和 管理 UI。 但 即使 只 考虑 基于 Web 的 UI， 不 同 的 设备 也 会 有 不 同 的 需求 。 当 然 响 
应 式 组 件 能 够 很 好 地 缓解 这 个 问题 。 


还 有 一 个 问题 ， 我 不 确定 是 否 能 够 用 这 个 方法 解决 。 有 时 候 服务 提供 的 能 力 难以 嵌入 到 小 
部 件 或 者 页 面 中 。 虽 然 我 可 能 会 在 网 站 页 面 的 一 个 矩形 区 域 中 使 用 舱 入 式 的 推荐 服务 控 
件 ， 但 是 如 果 想 要 把 这 种 能 力 动态 加 载 到 其 他 地 方 呢 ?比如 做 搜索 时 ， 我 希望 在 键入 关键 
字 时 推荐 信息 可 以 自动 刷新 。 类 似 这 样 ， 交 互 越 多 就 越 难 把 一 个 服务 做 成 控件 的 形式 ， 也 
许 最 终 只 能 通过 API 调用 来 解决 问题 。 


4.14.5 为 前 端 服务 的 后 端 

对 与 后 端 交 互 比较 频繁 的 界面 及 需要 给 不 同 设备 提供 不 同 内 容 的 界面 来 说 ， 一 个 常见 的 解 
决 方案 是 ， 使 用 服务 端的 聚合 接口 或 API 入 口 。 该 入 口 可 以 对 多 个 后 端 调 用 进行 编排 ， 并 
为 不 同 的 设备 提供 定制 化 的 内 容 ， 如 图 4-9 所 示 。 该 入 口 如 果 变 得 太 厚 ， 包 含 的 逻辑 太 多 ， 
就 会 难以 维护 。 它 们 会 被 逐渐 交 由 单独 的 团队 来 管理 ， 并 且 因 为 它们 变 得 太 厚 ， 很 多 功能 
的 修改 都 会 导致 这 部 分 代码 的 修改 。 














Web 应 用 











4-9: 使 用 单 块 入 口 来 处 理 与 UI 之 间 的 交互 





集成 | 59 


这 样 做 会 得 到 一 个 聚合 所 有 服务 的 巨大 的 层 。 由 于 所 有 的 东西 都 被 放 在 了 一 起 ， 也 就 失去 
了 不 同 用 户 界面 之 间 的 隔离 性 ， 从 而 限制 了 独立 于 彼此 进行 发 布 的 能 力 。 我 个 人 比较 喜欢 
的 模式 是 ， 保 证 一 个 这 样 的 后 端 只 为 一 个 应 用 或 者 用 户 界面 服务 ， 如 图 4-10 所 示 。 











客户 网 站 














图 4-10: 对 于 前 端 使 用 专用 后 端 


这 种 模式 有 时 也 叫 作 BFF (Backends For Frontends， 为 前 端 服 务 的 后 端 )。 它 允许 团队 在 专 
注 于 给 定 UI 的 同时 ， 也 会 处 理 与 之 相关 的 服务 端 组 件 。 后 端 虽然 赔 入 在 服务 端 ， 但 它 也 
是 用 户 界 面 的 组 成 部 分 。 一 些 类 型 的 UI 只 需要 服务 端的 最 小 化 足迹 (footprint) 即 可 ， 而 
其 他 一 些 可 能 需要 的 更 多 。API 认证 和 授权 层 可 以 处 在 BFF 和 UI 之 间 。 第 9 章 会 进一步 
探索 这 部 分 内 容 。 

与 任何 一 种 聚合 层 类 似 ， 使 用 这 种 方法 的 风险 在 于 包含 不 该 包含 的 逻辑 。 业 务 逻 辑 应 该 处 
在 服务 中 ， 而 不 应 该 泄露 到 这 一 层 。 这 些 BFF 应 该 仅仅 包含 与 实现 某 种 特定 的 用 户 体验 相 
关 的 逻辑 。 


4.14.6 ”一 种 混合 方式 

前 面 提 到 的 那些 选择 各 自 都 有 其 适用 的 范围 。 一 个 组 织 会 选择 基于 片段 组 装 的 方式 来 构建 
网 站 ， 但 对 于 移动 应 用 来 说 ，BFF 可 能 是 更 好 的 方式 。 关 键 是 要 保持 底层 服务 能 力 的 内 聚 
性 。 比 如 ， 预 定 音 乐 和 改变 客户 信息 的 逻辑 应 该 处 在 相应 的 服务 中 ， 避 免 这 些 逻 辑 在 系统 
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中 到 处 散布 。 将 太 多 的 逻辑 放 入 到 刚才 提 到 的 那 种 中 间 层 中 是 一 个 常见 的 陷阱 ， 在 实际 中 
需要 非常 小 心地 做 权衡 来 避免 这 个 问题 。 


4.15 与 第 三 方 软件 集成 


前 面 提 到 的 拆 分 已 有 系统 的 方式 针对 的 是 我 们 自己 开发 的 系统 ， 但 如 果 需 要 处 理 那 些 不 受 
我 们 控制 的 系统 呢 》 由 于 种 种 原因 ， 和 我 们 一 起 工作 的 组 织 都 购买 了 COTS 或 者 利用 SaaS 
(Software as a Servicee， 软件 即 服务 平台 )， 而 通常 我 们 对 这 些 系 统 的 控制 力 都 很 有 限 。 那 
么 如 何 合 理 地 与 之 进行 集成 呢 ? 


如 果 你 正在 阅读 此 书 ， 那 么 你 很 有 可 能 工作 在 一 个 需要 写 代 码 的 组 织 中 。 你 可 能 为 内 部 或 
者 外 部 的 用 户 编写 软件 ,或 者 两 者 错 有 。 不 管 怎样 ， 即 使 你 所 在 的 组 织 拥 有 很 强 的 定制 化 
软件 开发 的 能 力 ， 你 还 是 需要 外 部 组 织 提供 的 商业 或 者 开源 软件 产品 。 为 什么 会 这 样 呢 ? 


第 一 ， 你 的 组 织 对 软件 的 需求 几乎 不 可 能 完全 由 内 部 满足 。 考 虑 你 使 用 的 所 有 产品 ， 从 类 
似 Excel 的 办 公 自 动 化 工具 到 操作 系统 ， 再 到 工资 系统 。 自 己 创建 所 有 这 些 产品 的 工作 量 
是 巨大 的 。 第 二 ， 也 是 最 重要 的 一 点 是 ， 这 样 做 非常 低 效 ! 自己 构建 邮件 系统 的 代价 要 远 
远大 于 使 用 现成 的 工具 ， 即 使 选用 的 是 商业 工具 。 


我 的 客户 经 常 纠结 这 样 的 问题 :“ 应 该 自己 做 ， 还 是 买 ? ”一 般 来 讲 ， 我 和 同事 的 建议 是 ， 
对 于 一 般 规模 的 组 织 来 说 ， 如 果 某 个 软件 非常 特殊 ， 并 且 它 是 你 的 战略 性 资产 的 话 ， 那 就 
自己 构建 ， 如 果 不 是 这 么 特别 的 话 ， 那 就 购买 。 


举 个 例子 ， 一 般 规 模 的 组 织 不 会 把 工资 系统 当 作 它 的 战略 性 资产 ， 因 为 全 世界 的 人 领 工 
资 的 方式 都 大 同 小 异 。 类 似 地 ， 大 部 分 组 织 倾 向 于 购买 现成 的 CMS (Content Management 
System， 内 容 管 理 系 统 )， 因 为 这 一 类 工具 对 它们 的 业务 来 说 并 不 是 那么 关键 。 我 参与 过 
Guardian 网 站 的 早期 构建 工作 ， 定 制 的 内 容 管 理 系统 对 于 新 闻 行 业 来 说 非常 关键 ， 所 以 他 
们 决定 自己 构建 。 


所 以 ， 使 用 一 些 商 业 的 第 三 方 软件 是 合情合理 的 ， 但 很 多 人 会 逐渐 开始 完 加 这些 系统 ， 这 
又 是 为 什么 呢 ? 


4.15.1 缺乏 控制 

使 用 类 似 CMS 和 SaaS 这 样 的 COTS 产品 会 面临 的 一 个 挑战 是 ， 如 何 与 之 进行 集成 并 对 其 
进行 扩展 ， 因 为 大 部 分 技术 决策 都 不 受 你 的 控制 。 如 何 与 该 工具 进行 集成 ? 厂家 决定 的 。 
使 用 什么 编程 语言 对 其 进行 扩展 ? 也 取决 于 厂家 。 你 是 否 能 够 把 该 工具 的 配置 文件 存 到 版 
本 管理 中 ， 然 后 在 持续 集成 中 重新 创建 和 配置 该 工具 ? 这 依赖 于 厂家 所 做 的 决定 。 


如 果 你 足够 幸运 ， 从 开发 的 角度 使 用 该 工具 的 难 易 程 度 会 成 为 工具 选择 流程 中 的 一 个 考虑 
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因素 。 但 即便 如 此 ， 你 还 是 放弃 了 一 部 分 控制 。 所 以 更 好 的 方式 是 ， 尽 量 把 集成 和 定制 化 
的 工作 放 在 自己 能 够 控制 的 部 分 。 


4.15.2 定制 化 

很 多 企业 购买 的 工具 都 声称 可 以 为 你 做 深度 定制 化 。 一 定 要 小 心 ! 这 些 工 具 链 的 定制 化 往 
往 会 比 从 头 做 起 还 要 昂贵 ! 如 果 你 决定 购买 一 个 产品 ， 但 是 它 提供 的 能 力 不 完 全 适合 你 ， 
也 许 改变 组 织 的 工作 方式 会 比 对 软件 进行 定制 化 更 加 合理 。 


内 容 管理 系统 能 够 很 好 地 说 明 这 种 危险 。 我 用 过 的 很 多 CMS 工具 设计 上 就 不 支持 持续 集 
成 ， 其 提供 的 API 非常 难 用 ， 并 且 底 层 工具 很 小 的 升级 都 会 破坏 你 做 的 那些 定制 化 。 


Salesforce 的 问题 尤其 突出 。 这 么 多 年 来 它 一 直 在 推 Force.com 平台 ， 而 这 个 平台 需要 使 用 
一 种 叫 作 Apex 的 语言 ， 该 语言 只 能 应 用 在 Force.com 的 生态 系统 中 。 


4.15.3 意大利 面 式 的 集成 

另 一 个 挑战 是 如 何 与 工具 进行 集成 。 如 前 面 讨 论 过 的 ， 服 务 之 间 的 集成 是 一 件 非常 重要 的 
事情 ， 理 想 情 况 下 应 该 存在 一 些 为 数 不 多 的 标准 化 集成 方式 。 但 如 果 一 个 产品 决定 使 用 专 
有 的 二 进 制 协 议 ， 另 一 个 使 用 SOAP， 还 有 一 个 使 用 XML-RPC， 你 该 怎么 办 ?更 糟糕 的 
是 ， 那 些 允 许 你 直接 访问 其 内 部 数据 存储 的 工具 ， 会 引入 前 面 讨 论 过 的 那些 耦合 问题 。 


4.15.4 在 自己 可 控 的 平台 进行 定制 化 
COTS 和 SAAS 产品 当然 是 有 用 的 ， 但 不 适用 于 重头 开始 构建 系统 的 场景 (或 者 说 这 么 做 
不 合理 ) 。 那 么 如 何 解决 这 些 挑战 呢 ? 关键 是 把 事情 移 到 自己 可 控 的 部 分 做 。 


核心 思想 是 ， 任 何 定 制 化 都 只 在 自己 可 控 的 平台 上 进行 ， 并 限制 工具 的 消费 者 的 数量 。 为 
了 更 好 地 理解 这 个 概念 ， 接 下 来 看 两 个 例子 。 


1. 例子 : CMS 作 为 服务 

从 我 的 经 验 来 看 ，CMS 是 一 个 最 经 常 需要 做 定制 化 或 者 与 之 集成 的 产品 。 因 为 除非 你 想 要 
的 是 基本 的 静态 站 点 ， 否 则 一 般 的 企业 都 希望 在 自己 的 网 站 上 提供 动态 内 容 ， 比 如 客户 信 
息 或 最 新 的 产品 。 这 些 动态 内 容 的 来 产 通 常 是 组 织 内 已 经 存在 的 其 他 服务 。 

CMS 最 常见 的 卖点 是 ， 你 可 以 对 其 进行 定制 化 ， 从 而 把 各 种 特殊 的 内 容 放 进来 并 显示 给 外 
部 世界 。 然 而 普通 的 CMS 开发 环境 通常 都 非常 精 糕 。 

普通 的 CMS 提供 的 主要 功能 是 内 容 的 创建 与 管理 。 大 多 数 CMS 甚至 连 页 面 布局 都 做 不 好 ， 
它们 通常 只 提供 一 些 可 拖 搜 的 工具 ， 然 而 这 并 不 能 满足 你 的 需求 ， 你 还 需要 一 些 懂 HTML 
和 CSS 的 人 来 好 好 调整 CMS 模板 。 在 其 之 上 开发 定制 化 代码 将 会 是 非常 糟糕 的 体验 。 





那么 到 底 应 该 怎么 办 呢 ? 你 可 以 选择 在 CMS 上 面 套 一 层 自己 的 服务 作为 对 外 的 网 站 ， 如 
图 4-11 所 示 。 这 时 CMS 就 成 为 了 一 个 服务 ， 其 职责 是 管理 内 容 的 创建 和 获取 。 在 自己 写 
的 那个 前 端 服务 中 ， 你 可 以 按照 自己 的 方式 来 写 代 码 和 做 集成 。 你 对 网 站 的 扩展 具有 很 好 
的 控制 力 (很 多 商业 CMS 提供 了 自己 专用 的 插件 来 处 理 负载 )， 那 么 就 可 以 使 用 更 合理 的 
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4-11: 使 用 CMS 把 你 自己 的 服务 隐藏 起 来 


大 多 数 CMS 还 提供 了 创建 内 容 的 API， 所 以 你 可 以 选择 把 创建 的 这 部 分 也 使 用 自己 的 服 
务 包 右 一 层 。 在 曾经 做 过 的 一 些 项 目 中 ， 我 们 甚至 使 用 过 一 个 外 观 (facade) 对 获取 内 容 
的 API 进行 抽象 。 


前 几 年 ， 在 ThoughtWorks 这 种 模式 应 用 得 很 广泛 ， 光 是 我 自己 就 做 过 不 止 一 次 。 一 个 值 
得 注意 的 例子 是 这 样 的 : 一 个 客户 想 要 为 他 的 产品 制作 一 个 网 站 ， 刚 开始 他 想 完 全 在 CMS 
上 构建 这 套 系 统 ， 但 还 没 确定 使 用 哪个 。 就 在 这 时 我 们 建议 了 这 种 方式 ， 然 后 开始 构建 前 
端 网 站 。 在 CMS 选 定之 前 ， 用 一 个 假 的 静态 内 容 服 务 来 替代 它 。 后 来 甚至 在 CMS 确定 之 
前 ， 直 接 在 生产 环境 使 用 了 该 静态 内 容 服 务 。 等 到 CMS 终于 选 好 了 之 后 ， 没 有 做 任何 修 
改 就 顺利 地 把 原来 的 服务 给 替换 掉 了 。 


这 种 方法 可 以 最 大 程度 地 限制 CMS 的 使 用 范围 ， 并 把 定制 化 的 工作 移 到 你 自己 的 技术 
栈 中 。 

2. 例子 : 多 职责 的 CRM 系 统 

我 们 还 经 常会 遇 到 CRM (Customer Relationship Management， 客 户 关系 管理 ) 工具 ， 即 
使 最 坚强 的 架构 师 也 会 对 它 感 到 恐惧 。 这 个 行业 的 主要 厂家 包括 Salesforce 和 SAP， 这 些 
工具 试图 为 你 包揽 所 有 的 事情 。 所 以 这 些 工具 可 能 会 出 现 单 点 失败 ， 并 且 还 可 能 会 变 成 一 
团 乱 七 八 糟 的 依赖 。 我 见 过 的 很 多 CRM 工具 的 实现 都 是 粘性 (内 聚 性 的 反方 向 ) 服务 的 
典范 。 
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这 种 工具 的 使 用 范围 往往 一 开始 会 比较 小 ， 但 随 着 时 间 的 发 展 它 会 在 你 的 组 织 中 变 得 越 来 
越 重要 ， 以 至 于 后 续 的 方向 和 选择 都 会 围绕 它 来 做 。 但 这 么 重要 的 系统 竟然 不 是 自己 做 
的 ， 而 是 第 三 方 厂家 提供 的 ， 这 是 个 很 严重 的 问题 。 


我 最 近 在 做 的 一 件 事情 就 是 夺回 控制 权 。 我 所 服务 的 组 织 意 识 到 虽然 很 多 事情 都 使 用 
CRM 在 管理 ， 但 是 这 个 平台 并 没有 带 来 与 其 代价 相对 应 的 收益 。 与 此 同时 ， 很 多 内 部 系 
统 都 在 使 用 CRM 提供 的 差强人意 的 API 来 做 集成 。 我 们 希望 对 系统 架 进行 演化 ， 使 用 自 
己 的 服务 来 对 业务 进行 建 模 ， 从 而 为 潜在 的 迁移 打下 基础 。 


我 们 做 的 第 一 件 事情 是 ， 识 别 出 正 在 被 CRM 系统 控制 的 核心 领域 概念 。 其 中 之 一 是 “项 
目 ” 的 概念 ， 员 工会 被 分 配 到 不 同 的 项 目 上 。 由 于 多 个 其 他 的 系统 需要 项 目的 信息 ， 所 以 
我 们 就 创建 了 项 目 服务 。 这 个 服务 将 项 目 以 RESTful 资源 的 形式 暴露 出 来 ， 外 部 系统 可 以 
把 它们 的 集成 点 迁移 到 这 个 新 的 、 易 用 的 服务 上 来 ， 而 这 个 项 目 服务 仅仅 是 隐藏 了 底层 的 
集成 细节 而 已 。 如 图 4-12 所 示 。 








我 们 的 标准 集成 方式 
(比如 HTTP REST) 


ee 三 家 特有 的 集成 方式 
(比如 SOAP、 特 定 的 
二 进 制 、XML-RPC) 











4-12: 使 用 外 观 服务 来 隐藏 底层 的 CRM 


在 本 书写 作 时 ， 这 项 工作 还 在 继续 进行 中 。 持 续 识 别 出 其 他 CRM 管理 的 领域 概念 ， 然 后 
在 其 之 上 封装 出 外 观 。 等 到 迁移 时 机 到 来 时 ， 可 以 查看 每 一 个 外 观 来 决定 ， 是 自己 编写 软 
件 还 是 使 用 一 些 现 成 的 方式 来 完成 这 些 工 作 。 


4.15.5” 绞 杀 者 模式 


你 通常 难以 完全 控制 遗留 系统 和 COTS 平台 ， 所 以 当 你 使 用 它们 时 要 考虑 如 果 需 要 移 除 或 
者 绕 过 它们 的 话 ， 应 该 如 何 操作 。 一 个 有 用 的 模式 叫 作 绞 杀 者 模式 (Strangler Application 
Pattern, http://martinfowler.com/bliki/StranglerApplication.html)。 与 在 CMS 系统 前 面 套 一 层 
自己 的 代码 非常 类 似 ， 绞 杀 者 可 以 捕获 并 拦截 对 老 系统 的 调用 。 这 里 你 就 可 以 决定 ， 是 把 
这 些 调用 路 由 到 现存 的 遗留 代码 中 还 是 导向 新 写 的 代码 中 。 这 种 方式 可 以 帮助 我 们 逐步 对 





老 系统 进行 替换 ， 从 而 避免 影响 过 大 的 重 写 。 


在 微服 务 的 上 下 文中 ， 通 常 不 会 使 用 单一 的 单 块 应 用 来 拦截 所 有 对 已 有 遗留 系统 的 调用 ， 
相反 你 可 能 会 使 用 一 系列 的 微服 务 来 实施 这 些 拦截 。 在 这 种 情况 下 ， 捕 获 并 重 定向 这 些 原 
始 调用 可 能 会 变 得 更 加 复杂 ， 可 能 需要 使 用 一 个 代理 来 为 你 做 这 些 事情 。 


4.16 ”小 结 


前 面 了 解 了 很 多 不 同 的 集成 选择 ， 我 也 谈 了 什么 样 的 选择 能 够 最 大 程度 地 保证 微服 务 之 间 
的 低 耦 合 : 


。 无 论 如 何 避 免 数 据 库 集 成 

。 理解 REST 和 RPC 之 间 的 取舍 ,但 总 是 使 用 REST 作为 请 求 /响应 模式 的 起 点 
。 相 比 编排 ， 优 先 选 择 协同 

。 避免 破坏 性 修改 、 理 解 Postel 法 则 、 使 用 容错 性 读 取 顺 

。 将 用 户 界 面 视 为 一 个 组 合 层 


这 里 覆盖 了 很 多 内 容 ， 每 个 话题 都 不 可 能 讲 得 非常 深入 。 但 起 码 你 知道 有 哪些 点 需要 学 
习 ， 以 及 正确 的 方向 是 什么 ， 这 对 你 的 进一步 学 习 很 有 帮助 。 

我 们 也 花 了 一 些 时 间 来 研究 如 何 应 对 那些 不 完全 受 控 的 系统 ， 比 如 COTS 产品 。 细 想 一 下 
你 会 发 现 ， 这 些 原则 也 很 容易 应 用 到 我 们 自己 编写 的 软件 中 。 


这 里 列 出 的 一 些 方法 ， 对 遗留 系统 来 说 同样 好 用 ,但 是 如 果 我 想 要 把 一 个 大 系统 分 解 成 为 
可 重用 的 小 系统 ， 应 该 怎么 做 呢 ? 下 一 章 会 着 重 讲解 这 个 问题 。 





集成 | 65 


第 5 章 


分 解 单 块 系统 





前 面 几 章 讨论 了 什么 是 好 的 服务 以 及 为 什么 小 服务 能 达到 更 好 的 效果 ， 还 讨论 了 系统 具有 
可 演化 性 的 重要 性 。 但 事实 上 ， 可 能 我 们 手中 已 经 有 了 很 多 代码 库 ， 而 它们 无 一 例外 都 没 
有 遵循 上 述 的 模式 。 如 何 才能 循序 渐进 地 把 一 个 单 块 系统 分 解 开 来 呢 ? 


单 块 系统 的 形成 非 一 日 之 功 。 开 发 人 员 每 天 都 对 系统 添加 新 功能 和 新 代码 。 一 段 时 间 之 
后 ， 它 变 成 了 组 织 中 一 个 恐怖 而 巨大 的 存在 ， 没 人 想 去 修改 它 。 但 别 担心 ， 它 并 不 是 无 可 
救 药 。 只 要 使 用 了 正确 的 工具 ， 我 们 就 可 以 手 刃 这 个 怪兽 。 


5.1“ 天 键 是 接 缝 


在 第 3 章 中 我 们 提 到 了 服务 应 该 是 高 内 聚 、 低 耦合 的 。 而 在 单 块 系统 中 ， 这 两 点 往往 都 会 
被 破坏 。 我 们 应 该 只 把 经 常 一 起 变化 的 部 分 放 在 一 起 ， 从 而 实现 内 聚 性 ， 但 是 在 单 块 系统 
中 ， 所 有 不 相关 的 代码 都 被 放 在 了 一 起 。 类 似 地 ， 松 耦合 也 不 复 存 在 : 修改 一 行 代码 很 容 
易 ， 但 是 无 法 保证 这 一 行 修改 不 会 对 单 块 系统 中 的 其 他 部 分 造成 影响 。 除 此 之 外 ， 为 了 发 
布 这 个 功能 ， 我 们 还 需要 把 整个 系统 重新 部 署 一 次 。 


在 《修改 代码 的 艺术 》 这 本 书 中 ，Michael Feathers 定义 了 接 缝 的 概念 ， 从 接 颖 处 可 以 抽取 
出 相对 独立 的 一 部 分 代码 ， 对 这 部 分 代码 进行 修改 不 会 影响 系统 的 其 他 部 分 。 识 别 出 接 颖 
不 仅仅 能 够 清理 代码 库 ， 更 重要 的 是 ， 这 些 被 识别 出 的 接 颖 可 以 成 为 服务 的 边界 。 


那么 什么 样 的 接 颖 才 是 好 接 颖 呢 ?” 如 前 面 讨论 过 的 ， 限 界 上 下 文 就 是 一 个 非常 好 的 接 颖 ， 
因为 它 的 定义 就 是 组 织 内 高 内 聚 和 低 耦 合 的 边界 。 所 以 第 一 步 是 开始 识别 出 代码 中 的 这 些 
边界 。 
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很 多 编程 语言 都 提供 了 命名 空间 的 概念 ， 来 帮助 我 们 把 相似 的 代码 组 织 到 一 起 。Java 中 包 
(package) 的 概念 是 一 个 非常 弱 的 例子 ， 但 能 够 满足 大 部 分 的 使 用 场景 。 其 他 所 有 的 主流 
语言 也 内 建 有 类 似 的 概念 ， 而 JavaScript 是 个 例外 。 


5.2 分解 MusicCorp 


想象 一 下 ， 现 在 有 一 个 巨大 的 后 台 单 块 服务 ， 其 中 包含 了 MusicCorp 在 线 音 乐 系统 所 需要 
的 所 有 行为 。 首 先 ， 我 们 应 该 识别 出 组 织 中 的 高 层 限 界 上 下 文 ， 这 一 点 在 第 3 章 中 已 经 讨 
论 过 了 。 然 后 ， 尝 试 理解 这 个 单 块 系统 能 够 被 映射 到 哪些 限界 上 下 文中 。 假 设 一 开始 我 们 
识别 出 这 个 单 块 后 台 系 统 包含 以 下 四 个 上 下 文 。 


。 产品 目录 
与 正在 销售 的 商品 相关 的 元 数据 。 


。 财务 
账户 、 支 付 、 退 款 等 项 目的 报告 。 


。 仓库 
分 发 客户 订单 、 处 理 退 货 、 管 理 库存 等 。 


。 推荐 
该 系统 的 算法 正在 申请 专利 。 它 是 革命 性 的 推荐 系统 ， 代 码 非 常 复 杂 。 该 团队 中 博士 的 
比例 ， 比 一 般 科 学 实验 室 的 还 要 高 。 


首先 创建 包 结构 来 表示 这 些 上 下 文 ， 然 后 把 已 有 的 代码 移动 到 相应 的 位 置 。 可 以 使 用 现代 
IDE 的 重 构 功能 来 自动 完成 这 些 代 码 移动 ， 而 且 你 也 不 用 专门 抽 时 间 做 这 些 事情 ， 在 做 其 
他 功能 时 穿插 一 些 这 部 分 工作 即 可 。 虽 然 IDE 很 智能 ， 但 还 需要 有 测试 来 捕获 任何 可 能 的 
破坏 性 修改 ， 尤 其 是 对 动态 语言 来 说 ， 因 为 IDE 很 难 完全 精准 地 对 它们 进行 重 构 。 过 一 
段 时 间 之 后 ， 就 可 以 看 到 哪些 代码 很 好 地 找到 了 自己 的 位 置 ， 而 哪些 代码 找 不 到 合适 的 位 
置 。 这 些 剩 下 的 代码 很 有 可 能 就 是 我 们 遗漏 掉 的 限界 上 下 文 。 


在 这 个 过 程 中 ， 我 们 还 会 使 用 代码 来 分 析 这 些 包 之 间 的 依赖 。 代 码 应 该 与 组 织 相 匹配 ， 所 
以 表示 限界 上 下 文 的 这 些 包 之 间 的 交互 ， 也 应 该 与 组 织 中 不 同 部 分 的 实际 交互 方式 一 致 。 
比如 像 Structure 101 这 样 的 工具 ， 就 能 可 视 化 包 之 间 的 依赖 。 举 个 例子 ， 如 果 发 现 仓 库 包 
依赖 于 财务 包 中 的 代码 ， 而 真实 的 组 织 中 并 不 存在 这 样 的 依赖 ， 那 么 就 需要 看 看 到 底 是 什 
么 问题 ， 并 想 办 法 解决 它 。 E 


根据 代码 库 大 小 的 不 同 ， 这 个 过 程 少 则 需要 一 个 下 午 ， 多 则 需要 几 周 甚至 几 个 月 。 在 分 离 
出 第 一 个 服务 之 前 ， 你 可 能 不 需要 完全 把 代码 按照 面向 领域 的 方式 组 织 起 来 。 事 实 上 ， 把 
精力 集中 在 一 个 地 方 通常 更 有 价值 。 这 个 过 程 也 不 需要 一 次 性 做 完 ， 可 以 一 天 天 、 一 点 点 
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地 进行 ， 很 多 有 用 的 工具 可 以 帮 我 们 对 这 个 过 程 进行 跟踪 。 
现在 你 的 代码 库 已 经 围绕 着 这 些 接 颖 进行 组 织 了 ， 下 一 步 呢 ? 


5.3 分解 单 块 系统 的 原因 


决定 把 单 块 系统 变 小 是 一 个 很 好 的 开始 。 但 我 强烈 建议 你 慢 慢 开 请 这 些 系统 。 增 量 的 方式 
可 以 让 你 在 进行 的 过 程 中 学 习 微 服务 ， 同 时 也 可 以 限制 出 错 所 造成 的 影响 (相信 我 ， 你 一 
定 会 犯错 的 ! )。 把 单 块 系统 想象 成 为 一 块 大 理 石 ， 我 们 可 以 把 整 块 石头 炸 开 ， 但 这 样 做 
的 结果 通常 不 好 。 增 量 开 瘦 的 方式 更 合理 。 


所 以 如 果 我 准备 开始 对 单 块 系统 做 分 离 ， 要 从 哪里 下 手 呢 ? 接 颖 已 经 找到 了 ， 那 么 应 该 先 
把 哪个 拉 出 来 呢 ? 最 好 考虑 一 下 把 哪 部 分 代码 抽取 出 去 得 到 的 收益 最 大 ， 而 不 是 为 了 抽取 
而 抽取 。 接 下 来 考虑 一 些 指导 因素 。 


5.3.1 改变 的 速度 
接 下 来 ， 我们 可 能 会 对 库存 管理 方面 的 代码 做 大 量 修改 。 所 以 如 果 现 在 把 仓库 接 颖 抽出 来 
作为 一 个 服务 ， 使 其 成 为 一 个 自治 单元 ， 那 么 后 期 开发 的 速度 将 大 大 加 快 。 


5.3.2 团队 结构 

MusicCorp 的 交付 团队 事实 上 分 布 在 两 个 不 同 的 地 区 ， 一 个 团队 在 伦敦 ， 另 一 个 在 夏威夷 
(有 些 人 太 和 舒服 了 ! )。 最 好 能 把 夏威夷 团队 维护 的 大 部 分 代码 分 离 出 来 ， 这 样 它们 就 能 对 
此 全 权 负 责 。 第 10 章 会 进一步 讨论 这 个 想法 。 


5.3.3 ”安全 

MusicCorp 有 安全 审计 的 机 制 ， 并 且 决 定 对 敏感 信息 做 更 加 严密 的 保护 。 目 前 这 部 分 功能 
由 财务 相关 的 代码 处 理 。 如 果 把 这 个 服务 分 出 去 ， 可 以 对 这 个 独立 的 服务 做 监控 、 传 输 数 
据 的 保护 和 静态 数据 的 保护 等 ， 第 9 章 会 对 此 做 进一步 阐述 。 


5.3.4 技术 

维护 推荐 系统 的 团队 研究 出 了 一 种 新 的 算法 ， 这 种 算法 使 用 了 Clojure 语言 中 人 逻辑 式 编程 
的 库 ， 并 且 认 为 这 能 够 大 大 改善 我 们 的 服务 。 如 果 能 把 这 部 分 推荐 代码 分 离 到 一 个 单独 的 
服务 中 ， 就 很 容易 重新 实现 一 遍 ， 并 对 其 进行 测试 。 





5.4 杂乱 的 依赖 


当 你 已 经 识别 出 了 一 些 备 选 接 缝 ， 另 一 个 需要 考虑 的 点 是 ， 这 部 分 代码 与 系统 剩余 部 分 之 

间 的 依赖 有 多 乱 。 我 们 想 要 拉 取 出 来 的 接 弘 应 该 尽量 少 地 被 其 他 组 件 所 依赖 如 果 你 识别 

出 来 的 几 个 接 颖 之 间 可 以 形成 一 个 有 向 无 环 图 (前 面 提 到 的 包 建 模 工 具 可 以 对 此 提供 帮 
助 )， 就 能 够 看 出 来 哪些 接 颖 会 比较 难处 理 。 


通常 经 过 这 样 的 分 析 就 会 发 现 ， 数 据 库 是 所 有 杂乱 依赖 的 源头 。 


5.5 ”数据库 


前 面 详 细 讨 论 了 使 用 数据 库 作 为 服务 之 间 集 成 方式 的 做 法 。 而 且 我 已 经 非常 明确 地 表示 我 
不 喜欢 这 么 做 ! 这 意味 着 需要 找到 数据 库 中 的 接 颖 ， 这 样 就 可 以 把 它们 分 离 干净 。 然 而 数 
据 库 是 一 个 环 手 的 怪物 。 


5.6 找到 问题 的 关键 


第 一 步 是 看 看 代码 中 对 数据 库 进行 读 写 的 部 分 。 通 常 这 部 分 代码 会 存在 于 一 个 仓储 层 中 ， 
其 中 会 使 用 某 种 框架 ， 比 如 Hibernate， 来 把 代码 和 数据 库 进 行 绑 定 ， 从 而 简化 对 象 和 数据 
库 之 间 的 读 写 操作 。 如 果 前 面 讲 的 东西 你 都 有 了 ， 那么 你 的 代码 应 该 已 经 按照 限界 上 下 文 
被 组 织 到 相应 的 包 中 了 。 对 于 数据 库 访 问 相 关 的 代码 来 说 ， 也 应 该 做 类 似 的 事情 ， 所 以 需 
要 把 仓储 层 的 代码 分 成 几 部 分 ， 如 图 5-1 所 示 。 




















图 5-1: 分 离 仓 储 层 


把 数据 库 映 射 相关 的 代码 和 功能 代码 放 在 同一 个 上 下 文中 ， 可 以 帮助 我 们 理解 哪些 代码 用 
到 了 数据 库 中 的 哪些 部 分 。 如 果 使 用 Hibernate 的 话 ， 可 以 针对 每 个 限界 上 下 文 写 一 个 映 
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射 文件 。 


然而 这 还 远 远 没有 结束 。 比 如 我 们 可 能 会 发 现 财务 代码 使 用 了 总 账 表 ， 产 品目 录 代 码 
使 用 了 行 条 目 表 ， 但 是 你 可 能 不 清楚 的 是 ， 数 据 库 中 还 存在 从 总 账 到 行 条 目的 外 键 约 
东 。 这 些 数据 库 级 别 的 约束 可 能 会 有 问题 ， 所 以 需要 使 用 其 他 的 工具 来 可 视 化 这 些 数 据 。 
SchemaSpy (http://schemaspy.sourceforge.net) 就 是 一 个 这 样 的 工具 ， 它 可 以 使 用 图 形 的 方 
式 展现 出 表 之 间 的 关系 。 


很 多 表 最 终 会 被 分 离 到 不 同 的 限界 上 下 文中 ， 而 上 述 的 这 个 工具 可 以 帮助 你 理解 ， 这 些 横 
跨 不 同上 下 文 的 表 之 间 存 在 什么 样 的 耦合 。 那 么 如 何 切 断 这 些 连 接 呢 ? 对 于 同一 张 表 被 多 
个 限界 上 下 文 使 用 的 场景 又 该 如 何 处 理 呢 ? 这 些 问 题 很 难 回答 ， 但 还 是 存在 很 多 种 不 同 的 
处 理 方式 。 


回 到 一 些 比较 实际 的 例子 ， 重 新 考虑 MusicCorp。 前 面 已 经 找到 了 四 个 限界 上 下 文 ， 接 下 
来 可 以 把 它们 分 解 开 来 ， 使 其 成 为 相互 协作 的 服务 。 接 下 来 看 看 ， 可 能 会 遇 到 哪些 问题 以 
及 如 何 处 理 。 虽 然 下 面 讨 论 问题 的 背景 是 关系 型 数据 库 ， 但 其 中 很 多 原则 也 适用 于 其 他 的 
NoSQL 存储 。 


5.7 例子 : 打破 外 键 天 系 


在 这 个 例子 中 ,产品 目录 部 分 的 代码 使 用 通用 的 行 条 目 表 来 存储 专辑 信息 ， 而 财务 部 分 的 
代码 使 用 总 账 表 来 跟踪 财务 事务 。 每 个 月 结束 的 时 候 ， 需 要 为 组 织 内 的 一 些 人 生成 一 份 报 
告 ， 从 而 让 大 家 知道 我 们 做 得 怎么 样 。 我 们 希望 这 个 报告 看 起 来 很 漂亮 且 易 于 阅读 ， 所 以 
它 的 内 容 不 应 该 像 这 个 样子 :“ 我 们 卖 了 400 份 SKU 12345 的 副本 ， 挣 了 1300 美元 ”而 
应 该 包含 更 多 信息 说 明 我 们 卖 的 到 底 是 什么 (比如 “我 们 卖 了 400 份 Bruce Springsteen 的 
Greatest Hits， 挣 了 1300 美元 ”)。 为 了 做 到 这 一 点 ， 财 务 包 中 生成 报告 的 代码 ， 需 要 从 行 
条 目 表 中 获取 SKU 的 标题 。 总 账 表 和 行 条 目 表 之 间 可 能 还 存在 外 键 约束 ， 如 图 5-2 所 示 。 
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5-2: 外 键 关 系 
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那 应 该 如 何 处 理 这 些 问 题 呢 ? 事实 上 有 两 处 需要 改动 。 首 先 要 去 除 财 务 部 分 的 代码 对 行 条 
目 表 的 访问 ， 因 为 这 张 表 属于 产品 目录 相关 的 代码 ， 所 以 当 产 品目 录 服 务 分 离 出 去 以 后 ， 
财务 和 产品 目录 两 部 分 代码 就 会 不 可 避免 地 使 用 数据 库 进行 集成 。 快 速 的 修改 方式 是 ， 让 
财务 部 分 的 代码 通过 产品 目录 服务 暴露 的 API 来 访问 数据 ， 而 不 是 直接 访问 数据 库 。 这 个 
API 调用 会 成 为 微服 务 化 的 第 一 步 ， 如 图 5-3 所 示 。 
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图 5-3: 外 键 关 系 的 后 去 除 


Ee 一 个 事实 : 你 需要 做 两 次 数据 库 调用 来 生成 报告 。 没 错 ， 做 成 两 个 独立 的 服 
务 之 后 也 uh 这 时 很 多 人 就 会 对 性 能 表示 担忧 。 我 对 这 些 担忧 给 出 的 答案 很 简单 : 
你 的 系统 需要 多 快 ? 系统 现在 是 多 快 ?如 果 和 E 够 对 当前 性 能 做 一 个 测试 ， 并 且 还 知道 你 
的 期 望 是 什么 ， 那 就 可 以 放心 地 做 这 些 修改 。 有 了 时候 让 系统 的 一 部 分 变 慢 会 带 来 更 大 的 好 
处 ， 尤 其 是 当 这 个 “ 慢 ” 事 实 上 还 在 可 接受 的 范围 内 时 。 


那 外 键 关联 怎么 办 ?我 们 也 只 能 放弃 它 了 。 所 以 你 可 能 需要 把 这 个 约束 从 数据 库 移 到 代码 
中 来 实现 。 这 也 就 意味 着 ， 我 们 可 能 需要 实现 跨 服务 的 一 致 性 检查 ， 或 者 周期 性 触发 清理 
数据 的 任务 。 这 样 做 与 否 通常 不 由 技术 专家 决定 。 举 个 例子 ， 如 果 订 单 服务 包含 产品 目 
有 
时 ， 该 如 何 处 理 呢 ? 应 该 允许 这 样 的 事情 发 生 吗 ? 如 果 人 允许 了 ， 订 单 又 应 该 显示 成 什么 样 
子 呢 ? 如 果 不 允 许 ， 那 么 如 何 检查 这 个 约束 是 否 被 破坏 了 呢 ? 事实 上 ， 首 先 应 该 知道 系统 
的 期 望 行为 是 什么 ， 然 后 再 根据 期 望 行为 做 决定 。 


5.8 例子 : 共享 静态 数据 


我 见 过 的 把 国家 代码 放 在 数据 库 中 (如 图 5-4 所 示 ) 的 次 数 ， 大 约 和 我 在 内 部 Java 项 目 中 
编写 StringUtils 类 的 次 数 一 样 多 。 这 似乎 暗示 着 ， 系 统 中 所 支持 国家 的 改变 频率 比 部 署 新 
代码 的 频率 还 要 高 ， 但 不 管 真正 的 原因 是 什么 ， 这 些 将 共享 静态 数据 存在 数据 库 中 的 例子 
非常 多 。 所 以 在 我 们 的 音乐 商店 中 ， 如 果 所 有 的 服务 都 要 从 同一 张 像 国家 这 样 的 表 中 读 取 
数据 ， 该 怎么 办 呢 ? 
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图 5-4; 将 国家 代码 存 入 数据 库 


有 这 么 儿 个 解决 方案 可 供 选 择 。 第 一 个 是 为 每 个 包 复制 一 份 访 表 的 内 容 ， 也 就 是 说 ， 未 来 
每 个 服务 也 都 会 保存 这 样 一 份 副本 。 当 然 这 会 导致 一 个 潜在 的 一 致 性 问题 。 比 如 说 ， 当 澳 
大 利 亚 东 海岸 新 成 立 了 一 个 国家 叫 作 Newmantopia， 你 有 可 能 会 漏 修改 掉 一 些 服 务 中 的 表 。 


第 二 个 方法 是 ， 把 这 些 共享 的 静态 数据 放 入 代码 ， 比 如 放 在 属性 文件 中 ， 或 者 简单 地 放 在 
一 个 枚 举 中 。 数 据 一 致 性 的 问题 仍然 存在 ， 虽 然 从 经 验 上 看 ， 修 改 配置 文件 比 修改 在 线 数 
据 库 要 简单 得 多 。 通 常 这 是 比较 合理 的 办 法 。 


第 三 个 方法 有 些 极端 ， 即 把 这 些 静态 数据 放 入 一 个 单独 的 服务 中 。 在 我 以 前 遇 到 过 的 一 些 
场景 中 ， 数 据 量 和 复杂 性 及 相关 的 规则 值得 我 们 这 样 做 ， 但 如 果 仅仅 是 国家 代码 的 话 就 不 
必 了 。 


从 个 人 经 验 来 看 ， 大 部 分 场景 下 ， 都 可 以 通过 把 这 些 数据 放 入 配置 文件 或 者 代码 中 来 解决 
问题 ， 而 且 它 对 于 大 部 分 场景 来 说 都 很 容易 实现 。 


5.9 例子 : 共享 数据 

现在 来 考虑 一 个 更 为 复杂 的 例子 ， 共 享 的 可 变数 据 对 于 分 离 系 统 来 说 通常 是 一 个 大 麻烦 。 
财务 代码 会 追踪 客户 产生 的 订单 信息 ， 同 时 也 会 追踪 退货 和 退 款 。 仓 库 代 码 也 会 在 客户 订 
单 被 分 发 或 者 接受 之 后 更 新 订单 信息 。 所 有 的 这 些 数据 都 会 在 网 站 某 个 地 方 统一 显示 出 
来 ， 这 样 客户 就 可 以 看 到 他 们 的 账户 活动 记录 。 为 简单 起 见 ， 我 们 把 所 有 这 些 信息 都 放 在 
了 通用 的 客户 表 中 ， 如 图 5-5 所 示 。 


12 中 第 5 讲 


























图 5-5: 访问 客户 数据 : 我 们 漏 掉 什么 了 吗 ? 


所 以 ， 无论 是 财务 相关 的 代码 还 是 仓库 相关 的 代码 ， 都 会 向 同一 个 表 写 入 数据 ， 有 时 还 会 
从 中 读 取 数据 。 在 这 种 情况 下 应 如 何 做 分 离 ? 其 实 这 种 情况 很 常见 ， 领域 概念 不 是 在 代码 
中 进行 建 模 ， 相 反 是 在 数据 库 中 隐 式 地 进行 建 模 。 这 里 缺失 的 领域 概念 是 客户 。 


需要 把 抽象 的 客户 概念 具象 化 。 作 为 一 个 中 间 步 又 ， 我 们 可 以 创建 一 个 新 的 包 ， 叫 作 
Customer。 然 后 让 财务 和 仓库 这 些 包 ， 通 过 API 来 访问 此 新 创建 的 包 。 按 照 这 个 思路 做 下 
去 ， 最终 可 以 得 到 一 个 清晰 的 客户 服务 (图 5-6) 。 








MusicCorp 系 统 











图 5-6: 识别 出 客户 的 限界 上 下 文 


5.10 例子 : 共享 表 


图 5-7 展示 的 是 最 后 一 个 示例 。 产 品目 录 需 要 存储 记录 的 名 字 和 价格 ， 而 仓库 需要 保存 仓 
储 的 电子 记录 。 最 初 我们 把 这 两 个 东西 放 在 了 同一 个 地 方 ， 即 比较 通用 的 行 条 目 表 。 当 把 
代码 全 都 放 在 一 起 时 ， 事 实 上 很 难 意识 到 我 们 把 不 同 的 关注 点 放 在 了 一 起 ， 但 现在 问题 就 
很 明显 了 。 接 下 来 ， 就 可 以 采取 行动 把 它们 存储 在 不 同 的 表 中 。 
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图 5-7: 在 不 同上 下 文中 共享 的 表 


这 里 的 答案 是 分 成 两 个 表 ， 如 图 5-8 所 示 。 可 以 对 仓库 创建 库存 项 表 ， 对 产品 目录 详情 创 
建 产 品目 录 项 表 。 


一 一 一 一 























图 5-8: 分 离 共 享 表 


5.11 重 构 数 据 库 


在 上 一 个 示例 中 ， 我 们 进行 了 数据 库 的 重 构 操 作 ， 这 种 操作 可 以 帮助 我 们 分 离 数 据 库 结 
构 。 如 果 你 想 更 多 地 了 解 这 个 话题 ， 可 以 看 看 Scott J. Ambler 和 Pramod J. Sadalage 编写 的 


Refactoring Databases 。 


实施 分 离 

我 们 已 经 找到 了 应 用 程序 中 的 接 缝 ， 按 照 限 界 上 下 文 对 它们 进行 分 组 ， 并 且 也 找到 了 数据 
库 中 的 接 颖 ， 尽 量 对 其 进行 了 分 离 。 然 后 呢 ? 你 想 要 在 一 次 发 布 中 把 单 块 服务 直接 变 成 两 
个 服务 ， 并 且 每 个 服务 有 各 自 的 数据 库 结构 吗 ? 事实 上 ， 我 会 推荐 你 先 分 离 数据 库 结构 ， 





暂时 不 对 服务 进行 分 离 ， 如 图 5-9 所 示 。 











1. 单一 表 结构 2. 分 离 表 结构 3. 把 应 用 程序 分 成 两 个 服务 








图 5-9: 逐步 对 服务 进行 分 离 


表 结 构 分 离 之 后 ， 对 于 原先 的 某 个 动作 而 言 ， 对 数据 库 的 访问 次 数 可 能 会 变 多 。 因 为 以 前 
简单 地 用 一 个 SELECT 语句 就 能 得 到 所 有 的 数据 ， 现 在 则 需要 分 别 从 不 同 的 地 方 拿 到 数据 ， 
然后 在 内 存 中 进行 连接 。 还 有 ， 分 成 两 个 表 结 构 会 破坏 事务 完整 性 ， 这 会 对 应 用 程序 造成 
很 大 的 影响 ， 后 面 会 对 此 进行 详细 讨论 。 先 分 离 数 据 库 结构 但 不 分 离 服务 的 好 处 在 于 ， 可 
以 随时 选择 回 退 这 些 修改 或 是 继续 做 ， 而 不 影响 服务 的 任何 消费 者 。 我 们 对 数据 库 分 离 感 
到 满意 之 后 ， 就 可 以 考虑 对 整个 应 用 程序 的 分 离 了 。 


5.12 事务 边界 


事务 是 很 有 用 的 东西 ， 它 可 以 保证 一 些 事 件 要 么 都 发 生 ， 要 么 都 不 发 生 。 在 插入 数据 库 时 这 
一 点 非常 有 用 ， 因 为 它 允 许 我 们 对 多 个 表 同 时 进行 修改 ， 而 且 一 旦 发 生 任 何 错误 ， 所 有 的 操 
作 都 会 被 回 退 ， 从 而 保证 数据 库 不 会 处 于 一 个 不 一 致 的 状态 。 简 单 地 说 ， 一 个 事务 可 以 帮助 
我 们 的 系统 从 一 个 一 致 的 状态 迁移 到 另 一 个 一 致 的 状态 : 要 么 全 部 做 完 ， 要 么 什么 都 不 变 。 


事务 不 仅仅 存在 于 数据 库 中 ， 尽 管 这 个 词 大 多 数 是 在 这 个 上 下 文中 使 用 。 举 个 例子 ， 消 息 
代理 就 允许 你 在 一 个 事务 中 提交 和 接收 数据 。 


使 用 单 块 表 结 构 时 ， 所 有 的 创建 或 者 更 新 操作 都 可 以 在 一 个 事务 边界 内 完成 。 分 离 数 据 库 
之 后 ， 这 种 好 处 就 没有 了 。 下 面 考虑 一 个 MusicCorp 上 下 文中 可 能 存在 的 例子 。 在 创建 订 
单 这 个 场景 中 ， 我 在 更 新 订单 表 的 同时 ， 也 应 该 在 仓库 团队 的 一 张 表 中 插入 一 条 记录 来 通 
知 他 们 去 派发 该 订单 。 至 此 ， 作 为 分 离 应 用 程序 代码 之 前 的 准备 工作 ， 代 码 的 分 包 和 数据 
库 表 结构 的 分 离 都 已 经 完成 了 。 


使 用 现存 的 单 块 表 结构 ， 可 以 在 同一 个 事务 中 进行 订单 的 插入 和 仓库 记录 的 插入 操作 ， 如 
图 5-10 所 示 。 
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1 单个 事务 
边界 














图 5-10: 在 同一 个 事务 中 更 新 两 个 表 


但 是 ， 如 果 我 们 已 经 把 表 结 构 分 成 了 两 部 分 ， 其 中 一 个 与 客户 相关 ， 其 余 的 与 仓库 相关 ， 
那么 就 无 法 获得 事务 所 能 提供 的 安全 性 。 下 订单 操作 现在 跨越 了 两 个 事务 边界 ， 如 图 5-11 
所 示 。 如 有 果 这 个 插入 订单 表 的 操作 失败 ， 我 们 可 以 显 式 地 清除 所 有 的 状态 ， 从 而 保证 系统 
状态 的 一 致 性 。 可 如 果 插 入 订单 表 成 功 ， 但 插入 提取 表 失 败 了 呢 ? 

















分 离 的 事务 边界 





图 5-11， 跨越 事务 边界 的 单一 操作 


5.12.1 再 试 一 次 

其 实 ， 对 我 们 来 说 知道 订单 被 捕获 并 被 处 理 就 足够 了 ， 因 为 可 以 后 面 再 对 仓库 的 提取 表 做 
一 次 插入 操作 。 我 们 可 以 把 这 部 分 操作 放 在 一 个 队列 或 者 日 志文 件 中 ， 之 后 再 尝试 对 其 进 
行 触发 。 对 于 某 些 操 作 来 说 这 是 合理 的 ， 但 要 保证 重 试 能 够 修复 这 个 问题 。 





很 多 地 方 会 把 这 种 形式 叫 作 最 终 一 致 性 。 相 对 于 使 用 事务 来 保证 系统 处 于 一 致 的 状态 ， 最 
终 一 致 性 可 以 接受 系统 在 未 来 的 某 个 时 间 达 到 一 致 。 这 种 方法 对 于 长 时 间 的 操作 来 说 尤其 
管用 。 在 第 11 章 中 我 们 会 讨论 扩展 (scaling) 模式 ， 届 时 会 对 该 话题 做 进一步 讨论 。 


5.12.2 ”终止 整个 操作 


男 一 个 选择 是 拒绝 整个 操作 。 在 这 种 情况 下 ， 我 们 需要 把 系统 重 置 到 某 种 一 致 的 状态 。 提 
取 表 的 处 理 比 较 简 单 ， 因 为 插入 失败 会 导致 事务 的 回 退 。 但 是 订单 表 已 经 提交 了 的 事务 该 
怎么 处 理 呢 ?解决 方案 是 ， 再 发 起 一 个 补偿 事务 来 抵消 之 前 的 操作 。 对 于 我 们 来 说 ， 可 能 
就 是 简单 的 一 个 DELETE 操作 来 把 订单 从 数据 库 中 删除 。 然 后 还 需要 向 用 户 报 告 该 操作 失败 
了 。 在 单 块 系统 中 这 些 情况 很 好 处 理 ， 但 是 分 开 之 后 怎么 做 呢 ? 发 起 补偿 事务 的 代码 应 该 
在 客户 服务 、 订 单 服务 ， 还 是 其 他 什么 地 方 呢 ? 


那 如 果 补 偿 事 务 失败 了 该 怎么 办 呢 ? 这 显然 是 有 可 能 的 ， 这 时 在 订单 表 中 就 会 有 一 条 记录 
在 提取 表 中 没有 对 应 的 记录 。 在 这 种 情况 下 ， 你 要 么 重 试 补偿 事务 ， 要 么 使 用 一 些 后 台 任 
务 来 清除 这 些 不 一 致 的 状态 。 可 以 给 后 台 的 维护 人 员 提 供 一 个 界面 来 进行 该 操作 ， 或 者 将 
其 自动 化 。 


现在 考虑 ， 如 果 需 要 同步 的 操作 不 仅仅 是 两 个 ， 而 是 三 个 、 四 个 ， 甚 至 五 个 ， 你 该 如 何 处 
理 ? 不 同情 况 下 的 补偿 事务 会 非常 难以 理解 ， 更 不 用 说 实现 了 。 


5.12.3 分布 式 事务 


手动 编 配 补偿 事务 非常 难以 操作 ， 一 种 替代 方案 是 使 用 分 布 式 事务 。 分 布 式 事务 会 横 跨 多 
个 事务 ， 然 后 使 用 一 个 叫 作 事务 管理 器 的 工具 来 统一 编 配 其 他 底层 系统 中 运行 的 事务 。 就 
像 普通 的 事务 一 样 ， 一 个 分 布 式 的 事务 会 保证 整个 系统 处 于 一 致 的 状态 。 唯 一 不 同 的 是 ， 
这 里 的 事务 会 运行 在 不 同系 统 的 不 同 进程 中 ， 通 常 它们 之 间 使 用 网 络 进 行 通信 。 


处 理 分 布 式 事务 (尤其 是 上 面 处 理 客户 订单 这 类 的 短 事务 ) 常用 的 算法 是 两 阶段 提交 。 在 
这 种 方式 中 ， 首 先是 投票 阶段 。 在 这 个 阶段 ， 每 个 参与 者 〈 在 这 个 上 下 文中 叫 作 cohort) 
会 告诉 事务 管理 器 它 是 否 应 该 继续 。 如 果 事 务 管理 器 收 到 的 所 有 投票 都 是 成 功 ， 则 会 告知 
它们 进行 提交 操作 。 只 要 收 到 一 个 否定 的 投票 ， 事 务 管理 器 就 会 让 所 有 的 参与 者 回 退 。 


这 种 方式 会 使 得 所 有 的 参与 者 暂停 并 等 待 中 央 协 调 进程 的 指令 ， 从 而 很 容易 导致 系统 的 中 
断 。 如 果 事 务 管理 器 宕 机 了， 处 于 等 待 状态 的 事务 就 永远 无 法 完成 。 如 果 一 个 cohort 在 投 
票 阶 段 发 送 消息 失败 ， 则 所 有 其 他 参与 者 都 会 被 阻塞 ， 投 票 结束 之 后 的 提交 也 有 可 能 会 失 
败 。 该 算法 隐 式 地 认为 上 述 这 些 情况 不 会 发 生 ， 即 如 果 一 个 cohort 在 投票 阶段 投了 赞成 
票 ， 则 它 一 定 能 提交 成 功 。cohort 需要 一 种 机 制 来 保证 这 件 事情 的 发 生 。 这 意味 着 此 算法 
并 不 是 万 无 一 失 的 ， 而 只 是 尝试 捕获 大 部 分 的 失败 场景 。 
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协调 进程 也 会 使 用 锁 ， 也 就 是 说 ， 进 行 中 的 事务 可 能 会 对 某 些 资源 持 有 一 个 锁 。 很 多 人 会 
对 在 资源 上 加 锁 有 担忧 ， 因 为 它 会 使 系统 很 难 扩展 ， 尤 其 是 在 分 布 式 系统 的 上 下 文中 。 


分 布 式 事务 在 某 些 特定 的 技术 栈 上 已 有 现成 的 实现 ， 比 如 Java 的 事务 API， 该 API 允许 你 
把 类 似 数据 库 和 消息 队列 这 样 完全 不 同 的 资源 ， 放 在 一 个 事务 中 进行 操作 。 很 多 算法 都 很 
复杂 且 容 易 出 错 ， 所 以 我 建议 你 避免 自己 去 创建 这 套 API。 如 果 你 确定 这 就 是 你 要 采取 的 
方式 的 话 ， 尽 量 使 用 现 有 的 实现 。 


5.12.4 应 该 怎么 办 呢 


所 有 这 些 方案 都 会 增加 复杂 性 。 如 你 所 见 ， 分 布 式 事务 很 容易 出 错 ， 而 且 不 利于 扩展 。 
种 通过 重 试 和 补偿 达成 最 终 一 致 性 的 方式 ， 会 使 得 定位 问题 更 加 困难 ， et ee 
他 的 补偿 措施 来 修复 潜在 数据 的 不 一 致 。 


如 果 现 在 有 一 个 业务 操作 发 生 在 跨 系统 的 单个 事务 中 ， 那 么 问 问 自己 是 否 真 的 需要 这 么 
做 。 是 否 可 以 简单 地 把 它们 放 到 不 同 的 本 地 事务 中 ， 然 后 依赖 于 最 终 一 致 性 的 概念 ?这 种 
系统 的 构建 和 扩展 都 会 比较 容易 (第 11 章 会 对 此 做 进一步 讨论 ) 。 


如 果 你 遇 到 的 场景 确实 需要 保持 一 致 性 ， 那 么 尽量 避免 把 它们 放 在 不 同 的 地 方 ， 一 定 要 尽 
量 这 样 做 。 如 果实 在 不 行 ， 那 么 要 避免 仅仅 从 纯 技术 〈 比 如 数据 库 事务 ) 的 角度 考虑 ， 而 
是 显 式 地 创建 一 个 概念 来 表示 这 个 事务 。 你 可 以 把 这 个 概念 当 作 一 个 句柄 或 者 钧 子 ， 在 此 
之 上 ， 能 够 相对 容易 地 进行 类 似 补偿 事务 这 样 的 操作 ， 这 也 是 在 系统 中 监控 这 些 复 杂 概 念 
的 一 种 方式 。 举 个 例子 ， 你 可 以 创建 一 个 叫 作 “处 理 中 的 订单 ”的 概念 ， 围 绕 这 个 概念 可 
以 把 所 有 与 订单 相关 的 端 到 端 操作 (及 相应 的 异常 ) 管理 起 来 。 


5.13 ”报告 


如 我 们 已 经 看 到 的 ， 在 对 服务 进行 分 离 的 同时 ， 可 能 也 需要 对 数据 存储 进行 分 离 。 但 是 就 
会 在 进行 一 个 很 常见 的 操作 时 出 问题 ， 这 个 操作 就 是 报告 。 


把 架构 往 微 服务 的 方向 进行 调整 会 颠覆 很 多 东西 ， 但 这 并 不 意味 着 我 们 需要 抛 弃 现 有 的 一 

切 。 报 告 系统 的 用 户 和 其 他 用 户 一 样 ， 他 们 的 需求 也 应 该 得 到 满足 。 修 改 架构 然后 让 用 户 

去 适应 ， 这 种 做 法 也 未 免 太 过 傲慢 。 我 并 不 是 说 报告 这 部 分 不 能 进行 颠覆 (当然 是 可 以 
的 ), 但 是 首先 需要 搞 清楚 现 有 流程 是 如 何 工作 的 。 有 时 候 你 需要 选择 好 战场 。 


5.14 报告 数据 库 


报告 通常 需要 来 自 组 织 内 各 个 部 分 的 数据 来 生成 有 用 的 输出 。 举 个 例子 ， 一 个 可 能 的 需 
求 是 在 账目 信息 的 报告 中 包含 售 出 物品 的 描述 等 ， 而 该 信息 需要 从 产品 目录 中 获取 。 男 





一 个 例子 是 ， 看 看 那些 高 价值 客户 的 购物 行为 ， 这 个 报告 需要 他 们 的 购买 记录 和 客户 详 
情 信息 。 
在 标准 的 单 块 服务 架构 中 ， 所 有 的 数据 都 存储 在 一 个 大 数据 库 中 ， 所 以 很 容易 获取 到 所 有 


的 信息 ， 通 过 SQL 查询 对 几 张 表 做 一 个 连接 即 可 。 通 常 为 了 防止 对 主 系统 性 能 产生 影响 ， 
报告 系统 会 从 副本 数据 库 中 读 取 数 据 ， 如 图 5-12 所 示 。 























5-12: 标准 只 读 副本 


这 种 方式 有 一 个 很 大 的 好 处 ， 即 所 有 的 数据 存储 在 同一 个 地 方 ， 因 此 可 以 使 用 非常 简单 的 
工具 来 做 查询 。 但 也 存在 一 些 缺 点 。 首 先 ， 数 据 库 结 构成 了 单 块 服务 和 报告 系统 之 间 的 共 
享 API， 所 以 对 表 结 构 的 修改 需要 非常 小 心 。 事 实 上 ， 这 也 会 阻碍 所 有 人 去 做 类 似 的 修改 。 


其 次 ， 无 论 是 在 线 上 系统 还 是 报告 系统 的 数据 库 中 ， 可 用 的 优化 手段 都 比较 有 限 。 一 些 数 
据 库 允许 我 们 在 只 读 的 备份 库 上 做 一 些 优化 ， 以 加 快 读 取 速 度 ， 从 而 更 高 效 地 生成 报告 。 
比如 在 MySQL 中 可 以 停 用 事务 管理 。 但 由 于 产品 数据 库 的 限制 ， 报 告 数据 库 的 表 结 构 是 
无 法 随意 优化 的 。 所 以 通常 来 讲 ， 这 个 表 结构 要 么 非常 适用 于 其 中 一 种 场景 ,但 对 其 他 的 
来 说 不 好 用 ， 或 者 取 二 者 的 最 小 公约 数 ， 也 就 是 两 种 场景 都 不 够 好 用 。 


最 后 ， 来 看 看 有 哪些 数据 库 可 供 选择 ， 显 然 近 几 年 来 这 个 选择 的 范围 得 到 了 极 大 的 扩展 。 
标准 的 关系 型 数据 库 使 用 SQL 作为 查询 接口 ， 它 能 够 和 很 多 现成 的 报告 工具 协同 工作 ， 但 
不 一 定 是 适用 于 产品 数据 库 的 最 佳 选择 。 比 如 说 ， 有 可 能 我 们 的 应 用 程序 数据 更 适合 建 模 
成 为 一 个 图 ， 就 像 Neo4j 那样 ;或 者 像 MongoDB 这 样 的 文档 存储 。 类 似 地 ， 对 于 报告 系 
统 来 说 ， 可 以 尝试 Cassandra 这 种 基于 列 的 数据 库 ， 因 为 它 对 大 数据 量 处 理 得 很 好 。 如 果 
只 能 使 用 一 种 数据 库 ， 那 么 就 很 难 做 这 些 选择 及 尝试 新 技术 。 


所 以 ， 虽然 现状 并 不 完美 ,但 至 少 它 (几乎 ) 是 工作 的 。 如 果 把 信息 存储 到 不 同 的 系统 
中 ， 又 该 如 何 处 理 呢 ”有 什么 办 法 可 以 把 所 有 的 数据 放 在 一 起 生成 报告 呢 ?” 是 否 能 够 同时 
找到 一 些 方法 来 消除 与 标准 的 报告 数据 库 模型 相关 的 那些 缺点 呢 ? 


注 4: 使 用 单 块 表 结构 。 一 一 译 者 注 
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事实 上 有 多 种 不 同 的 替代 方案 ， 需 要 考虑 多 个 因素 来 决定 哪 种 方案 更 适合 你 。 接 下 来 会 介 
绍 几 种 我 见 过 的 实践 。 


5.15 通过 服务 调用 来 获取 数据 


这 个 模型 有 很 多 变 体 ， 但 它们 都 依赖 API 调用 来 获取 想 要 的 数据 。 对 于 一 个 非常 简单 的 报 
告 系统 (比如 展示 过 去 15 分 钟 内 下 的 订单 数量 的 系统 ) 来 说 ， 这 是 可 行 的。 为 了 从 两 个 
或 者 多 个 系统 中 获取 数据 ， 你 需要 进行 多 次 调用 ， 然 后 进行 组 装 。 


但 是 当 你 需要 访问 大 量 数据 时 ， 这 种 方法 就 完全 不 适用 了 。 比 如 我 们 想 要 看 看 过 去 24 个 
月 内 客户 在 音乐 商店 的 购买 行为 ， 并 从 中 寻找 到 客户 行为 的 趋势 及 其 对 收入 的 影响 。 为 了 
完成 这 个 需求 ， 我 们 至 少 需要 从 客户 和 财务 两 个 系统 中 获取 大 量 的 数据 。 在 报告 系统 本 地 
保留 这 些 数据 的 副本 是 非常 危险 的 ， 因 为 我 们 不 知道 它们 是 否 已 经 发 生 了 修改 〈 即 使 是 历 
史 数 据 也 可 能 会 被 修改 )， 所 以 为 了 生成 一 份 精准 的 报告 ， 需 要 获取 过 去 两 年 的 所 有 财务 
记录 和 客户 记录 。 即 使 客户 数量 不 多 ， 这 个 操作 也 会 非常 慢 。 


报告 系统 也 经 常 依 赖 于 一 些 第 三 方 工具 来 获取 数据 ， 而 使 用 SQL 接口 能 够 简化 报告 工具 链 
的 集成 。 虽 然 定 期 把 数据 拉 入 SQL 数据 库 是 可 行 的 ， 但 它 还 是 会 带 来 一 些 问题 。 


一 个 主要 的 问题 是 ， 不 同 的 微服 务 暴露 的 API 不 一 定 能 够 很 好 地 适用 于 报告 这 个 场景 。 举 
个 例子 ， 你 可 以 在 客户 服务 中 根据 ID 查询 客户 ， 或 者 根据 一 些 字段 来 搜索 客户 ， 但 是 客 
户 服务 不 会 提供 API 来 获取 所 有 的 客户 。 所 以 ， 如 果 想 要 获取 到 所 有 的 数据 ， 就 要 发 起 很 
多 调用 。 对 于 用 户 这 个 例子 来 说 ， 就 是 遍历 包含 所 有 用 户 的 列表 ， 然 后 对 每 个 用 户 分 别 发 
起 请 求 来 获取 数据 。 这 种 方式 不 但 对 报告 系统 来 说 非常 低 效 ， 而 且 也 会 对 服务 器 产生 过 大 
的 负载 。 


对 于 某 些 服务 暴露 的 资源 来 说 ， 可 以 通过 添加 一 些 缓存 头 来 加 快 数据 的 获取 速度 ， 还 可 以 
把 这 些 数 据 缓 存在 反 向 代理 之 类 的 地 方 。 但 是 报告 天 然 就 允许 用 户 访问 不 同时 期 的 历史 数 
据 ， 这 意味 着 ， 如 果 用 户 访 问 的 资源 是 别人 没有 访问 过 的 (或 者 在 很 长 一 段 时间 内 没有 人 
访问 )， 则 缓存 无 法 命中 。 


你 可 以 提供 批量 API 来 简化 这 个 过 程 。 举 个 例子 ， 我 们 的 客户 服务 可 以 允许 你 传 过 来 一 
组 客户 ID 来 批量 获取 数据 ， 或 者 甚至 提供 一 个 接口 来 分 页 访问 所 有 的 客户 。 一 个 更 极 
端的 版 本 是 ， 把 对 所 有 用 户 的 请 求 建 模 成 为 一 个 资源 。 发 起 调用 的 系统 可 以 POST 一 个 
BatchRequest， 其 中 携带 一 个 位 置信 息 ， 服 务 器 可 以 将 所 有 数据 写 人 该 文件 。 客 户 服务 会 
返回 HTTP 202 响应 码 来 表示 请 求 已 经 接受 了 ， 但 还 没有 处 理 。 调 用 系统 接 下 来 轮 询 这 个 
资源 ， 直 到 得 到 一 个 201 Created 状态 ， 这 表示 请 求 已 经 被 满足 了 ， 然 后 发 起 调用 的 系统 就 
可 以 获取 这 个 数据 。 通 过 这 种 方式 可 以 将 大 数据 文件 导出 ， 而 不 需要 HTTP 之 上 的 开销 ， 
只 是 简单 地 把 一 个 CSV 文件 存储 到 共享 的 位 置 而 已 。 





我 见 过 使 用 上 述 方法 来 批量 插入 数据 ， 而 且 能 够 工作 得 很 好 。 但 是 对 于 报告 系统 而 言 ， 我 
并 不 是 很 喜欢 这 种 方式 ， 因 为 我 觉得 有 其 他 潜在 的 更 简单 的 方式 ， 而 且 还 能 够 在 处 理 传统 
报告 领域 时 ， 更 有 效 地 应 对 伸缩 性 问题 。 


5.16 数据 导出 


和 报告 系统 拉 取 数据 的 方式 相 比 ， 我 们 还 可 以 把 数据 推送 到 报告 系统 中 。 使 用 标准 的 
HTTP 来 进行 大 量 调用 时 ， 会 带 来 很 大 的 额外 开销 ， 更 不 用 提 为 报告 系统 创建 专用 API 所 
带 来 的 开销 。 一 种 禁 代 方式 是 ， 使 用 一 个 独立 的 程序 直接 访问 基 他 服务 使 用 的 那些 数据 
库 ， 把 这 些 数 据 导出 到 单独 的 报告 数据 库 ， 如 图 5-13 所 示 。 












SQL 或 者 
类 似 的 











图 5-13: 使 用 数据 导出 技术 来 周期 性 地 把 数据 推送 到 报告 数据 库 


这 时 你 会 说 :“ 但 是 Sam， 你 说 过 使 用 数据 库 集成 是 不 好 的 ! ”很 高 兴 你 这 么 问 ， 不 枉 我 
前 面 多 次 强调 这 个 问题 ! 但 如 果实 现 得 好 的 话 ， 这 个 场景 可 以 是 一 个 例外 ， 因 为 它 使 得 报 
告 这 件 事情 变 得 足够 简单 ， 从 而 可 以 抵消 耦合 带 来 的 缺点 。 


一 开始 ， 相 应 服务 的 维护 团队 可 以 负责 数据 的 导出 工作 。 简 单 地 使 用 Cron 去 触发 一 些 命 
令 行 程 序 就 可 以 完成 这 个 任务 。 这 个 程序 需要 同时 使 用 服务 和 报告 系统 的 数据 库 。 导 出 任 
务 的 职责 是 ， 把 一 种 形式 映射 成 为 另 一 种 形式 。 通 过 让 同一 个 团队 来 维护 服务 本 身 和 数据 
导出 ， 可 以 缓解 二 者 之 间 的 耦合 。 事 实 上， 我 会 建议 你 对 服务 和 数据 导出 程序 统一 做 版 本 
管理 ， 并 且 把 数据 导出 的 构建 ， 作 为 服务 本 身 构 建 的 一 个 生成 物 给 创建 出 来 ， 当 然 这 里 假 
设 服务 和 报告 总 是 同时 部 署 的 。 因 为 二 者 总 是 一 起 部 署 ， 而 且 服 务 和 报告 系统 之 外 的 实体 
不 会 访问 这 些 数据 ， 所 以 传统 的 数据 库 集成 所 带 来 的 问题 ， 很 大 程度 上 得 到 了 缓解 。 


关于 报告 系统 表 结 构 的 耦合 仍然 存在 ， 但 是 我 们 可 以 把 它 看 作 一 个 类 似 公共 API 的 比较 稳 
定 的 东西 。 一 些 数据 库 提 供 的 技术 能 够 帮助 我 们 进一步 消除 这 些 问 题 。 图 5-14 显示 了 一 
个 关系 型 数据 库 的 例子 ， 在 报告 数据 库 中 包含 了 所 有 服务 的 表 结 构 ， 然 后 使 用 视图 之 类 的 
技术 来 创建 一 个 聚合 。 使 用 这 种 方式 ， 导 出 数据 的 服务 只 需要 知道 自己 的 报告 视图 结构 即 
可 。 但 是 这 种 方式 的 性 能 就 取决 于 你 所 选用 的 数据 库 系统 了 。 
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图 5-14: 使 用 视图 来 构建 一 个 单 块 报告 程序 的 表 结 构 


当然 ， 这 里 其 实 是 把 集成 的 复杂 度 推 到 了 表 结 构 这 个 层次 ， 然 后 依靠 数据 库 的 能 力 来 确保 
这 种 方式 是 可 行 的。 虽然 数据 导出 一 般 来 讲 是 合理 并 且 容 易 实 施 的 建议 ， 但 我 认为 ， 分 割 
的 视图 结构 所 带 来 的 复杂 度 还 是 得 不 偿 失 的 ， 尤 其 当 你 要 在 数据 库 中 管理 修改 时 。 


另 一 个 方向 
在 曾经 做 过 的 另 一 个 项 目 中 ， 我 们 把 一 系列 数据 以 JSON 格式 导出 到 AWS S3， 有 效 地 把 
S3 变 成 了 一 个 巨大 的 数据 集 市 ! 这 种 方式 一 直 都 很 好 ， 直 到 后 来 规模 变 得 越 来 越 大 ， 且 出 
现 了 把 这 些 数据 导出 到 类 似 Excel 和 Tableau 这 种 标准 报告 工具 中 的 需求 ， 这 种 方法 的 效 
采 就 不 够 好 了 。 


5.17 事件 数据 导出 


第 4 章 提 到 过 ， 每 个 微服 务 可 以 在 其 管理 的 实体 发 生 状 态 改变 时 发 送 一 些 事 件 。 比 如 ， 我 
们 的 客户 服务 可 能 会 在 客户 增删 改 时 发 送 一 些 事件 。 对 于 这 些 暴露 事件 聚合 (feed) 的 微 
服务 来 说 ， 可 以 编写 自己 的 事件 订阅 器 把 数据 导出 到 报告 数据 库 中 ， 如 图 5-15 所 示 。 
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图 5-15: 基于 状态 改变 事件 来 将 事件 数据 导出 到 报告 数据 库 中 





使 用 这 种 方式 的 话 ， 与 源 微服 务 底层 数据 库 乙 间 的 耦合 就 被 消除 掉 了 。 我 们 只 需要 绑 定 到 
服务 所 发 送 的 事件 即 可 ， 而 设计 这 些 事件 ， 本 来 就 是 用 来 暴露 给 外 部 消费 者 的 。 考 虑 事件 
是 具有 时 效 性 的 ， 也 很 容易 确定 什么 样 的 数据 应 该 被 发 送 到 中 央 报 告 系统 的 存储 中 。 因 为 
可 以 在 事件 发 生 时 就 给 报告 系统 发 送 数据 ， 而 不 是 靠 原 有 的 周期 性 数据 导出 ， 所 以 数据 就 
能 更 快 地 流入 报告 系统 。 


还 有 ， 如 果 我 们 记录 了 哪些 事件 已 经 被 处 理 ， 而 且 发 现 老 的 事件 已 经 被 导入 到 报告 系统 
中 ， 那 么 每 次 只 需要 对 新 事件 进行 处 理 即 可 。 这 意味 着 插入 操作 会 更 加 高 效 ， 因 为 只 需要 
发 送 增 量 数据 。 我 们 可 以 在 数据 导出 的 方式 中 做 类 似 的 事情 ， 但 是 需要 自己 实现 ， 然 而 事 
件 流 (x 在 时 间 惟 y 上 发 生 ) 的 时 效 性 特性 能 够 帮助 我 们 很 好 地 完成 这 个 目标 。 


因为 事件 数据 导出 的 方式 与 服务 的 内 部 实现 耦合 很 小 ， 所 以 可 以 把 这 部 分 工作 交 给 男 一 个 
独立 的 团队 (而 非 持 有 数据 的 那个 团队 ) 来 维护 。 只 要 事件 流 的 设计 设 有 造成 订阅 者 和 服 
务 之 间 的 耦合 ， 则 这 个 事件 映射 器 就 可 以 独立 于 它 所 订阅 的 服务 来 进行 演化 。 


这 个 方法 主要 的 缺点 是 ， 所 有 需要 的 信息 都 必须 以 事件 的 形式 广播 出 去 ， 所 以 在 数据 量 比 
较 大 时 ， 不 容易 像 数 据 导 出 方式 那样 直接 在 数据 库 级 别 进行 扩展 。 不 管 怎 样 ， 如 果 你 已 经 
暴露 出 了 合适 的 事件 ， 我 还 是 建议 你 考虑 这 种 方式 ， 因 为 它 能 够 带 来 低 耦 合 及 更 好 的 数据 
时 效 性 。 


5.18 数据 导出 的 备份 


Netflix 使 用 过 一 种 方法 ， 该 方法 利用 现 有 的 备份 方案 解决 了 他 们 遇 到 的 与 扩展 相关 的 问 
题 。 而 接 下 来 要 讨论 的 方法 就 基于 Netflix 使 用 的 这 种 方法 。 从 某 种 角度 来 看 ， 你 可 以 认为 
这 是 数据 导出 的 一 种 特殊 形式 ， 但 这 个 有 趣 的 方案 确实 值得 一 提 。 


Netflix 已 经 决定 把 Cassandra 作为 在 众多 服务 中 进行 数据 备份 的 标准 方式 。 他 们 投入 了 大 
量 的 时 间 来 构建 相应 的 工具 来 提高 Cassandra 的 易 用 性 ， 其 中 大 部 分 工作 已 经 通过 开源 项 
目的 方式 共享 给 了 全 世界 。 显 然 对 于 Netflix 来 说 ， 数 据 得 到 适当 的 备份 是 很 重要 的 。 为 
了 备份 Cassandra 数据 ， 标 准 的 方式 是 复制 一 份 数据 ， 然 后 将 其 放 到 另外 一 个 安全 的 地 方 。 
Netflix 存储 的 这 些 文件 叫 作 SSTables， 它 们 被 存储 在 Amazon 的 S3 对 象 存储 服务 中 ， 而 
该 服务 提供 了 非常 好 的 数据 持久 化 保证 。 


在 进行 报告 时 ，Netflix 需要 对 所 有 这 些 数据 进行 处 理 ， 但 由 于 要 考虑 扩展 性 问题 ， 所 以 是 
一 个 非凡 的 挑战 。 它 使 用 了 Hadoop， 将 SSTable 的 备份 数据 作为 任务 的 数据 源 。 慢 慢 地 ， 
Netflix 实现 了 一 个 能 够 处 理 大 量 数据 的 流水 线 ， 并 且 开 源 了 出 来 ， 它 就 是 Aegisthus 项 目 
(https:Wgithub.com/Netflix/aegisthus) 。 但 和 数据 导出 一 样 ， 这 个 模式 仍然 会 引入 与 最 终 报告 
系统 表 结 构 (或 者 说 目标 系统 ) 之 间 的 耦合 。 


使 用 映射 器 来 处 理 备 份 数据 的 方式 与 上 述 的 方法 很 类 似 ， 这 个 方法 在 其 他 的 上 下 文中 也 能 





分 解 单 块 系统 | 83 


够 工作 得 很 好 。 如 果 你 已 经 在 用 Cassandra 了， 那么 Netflix 已 经 为 你 做 了 很 多 事情 ! 


5.19 走向 实时 


前 面 列 出 了 很 多 把 数据 从 不 同 的 地 方 汇聚 到 同一 个 地 方 的 模式 。 但 是 否 所 有 的 报告 都 必须 
从 一 个 地 方 出 呢 ? 我 们 有 仪表 盘 、 告 警 、 财 务 报告 、 用 户 分 析 等 应 用 。 这 些 使 用 场景 对 于 
时 效 性 的 要 求 不 同 ， 所 以 需要 使 用 不 同 的 技术 。 在 第 8 章 中 会 讲 到 ， 现 在 我 们 越 来 越 靠近 
能 够 把 数据 按 需 路 由 到 多 个 不 同 地 方 的 通用 事件 系统 了 。 


5.20 修改 的 代价 


贯穿 本 书 ， 你 会 看 到 我 一 直 在 强调 做 小 的 、 增 量 修改 的 各 种 原因 ， 但 其 中 一 个 关键 的 好 处 
是 ， 能 够 理解 做 出 的 那些 改变 会 造成 什么 影响 。 这 会 帮助 我 们 更 好 地 消除 错误 的 代价 ， 但 
` 会 完全 避免 错误 的 产生 。 我 们 可 以 ， 也 一 定 会 犯错 误 ， 需 要 接受 这 个 事实 。 但 是 另外 一 
件 我 们 应 该 做 的 事情 是 ， 理 解 如 何 降 低 这 些 错误 所 造成 的 影响 。 


如 我 们 所 见 到 的 ， 在 同一 个 代码 库 中 移动 代码 的 代价 是 相当 小 的 。 很 多 工具 可 以 帮助 我 们 
做 这 件 事情 ， 而 且 引 入 的 问题 也 都 比较 容易 修复 。 然 而 分 割 数据 库 的 工作 量 就 要 大 得 多 ， 
而 且 回 退 数据 库 的 修改 也 非常 复杂 。 类 似 地 ， 解 开 服务 之 间 的 耦合 ， 或 者 完全 重 写 一 个 很 
多 消费 者 都 在 使 用 的 API 是 非常 巨大 的 工作 。 巨 大 的 修改 代价 意味 着 风险 的 增 大 。 如 何 才 
能 控制 这 些 风 险 ? 我 的 方式 是 在 影响 最 小 的 地 方 犯错 误 。 


我 喜欢 在 修改 和 犯错 误 的 代价 都 很 小 的 地 方 进行 思考 ， 也 就 是 白板 。 把 设计 画 在 白板 上 。 
在 你 认为 的 服务 边界 上 运行 用 例 ， 然 后 看 看 会 发 生 什 么 。 比 如 对 于 我 们 的 音乐 商店 来 说 ， 
想象 一 下 ， 当 客户 搜索 一 条 记录 、 在 网 站 上 注册 ,或 者 在 购买 专辑 时 会 发 生 什 么 样 的 调 
用 ? 你 看 到 奇怪 的 循环 引用 了 吗 ? 你 看 到 两 个 服务 之 间 的 通信 过 多 ， 以 至 于 它们 应 该 被 合 
并 成 为 一 个 吗 ? 


这 里 我 采用 了 一 种 在 设计 面向 对 象 系统 时 的 典型 技术 : CRC (class-responsibility- 
collaboration， 类 一 职责 一 交互 ) 卡片 。 你 可 以 在 一 张 卡片 写 上 类 的 名 字 、 它 的 职责 及 与 谁 
进行 交互 。 当 我 进行 设计 时 ， 会 把 每 个 服务 的 职责 列 出 来 ， 写 清楚 它 提供 了 什么 能 力 ， 和 
哪些 服务 之 间 有 协作 关系 。 壳 历 的 用 例 越 多 ， 你 就 越 能 知道 这 些 组 件 是 否 以 正确 的 方式 在 
一 起 工作 。 


5.21 理解 根本 原因 


我 们 做 了 很 多 关于 如 何 把 大 服务 拆 分 成 一 些小 服务 的 讨论 ， 但 是 这 些 大 服务 又 是 怎么 产生 
的 呢 ? 第 一 件 需 要 理解 的 事情 是 ， 服 务 一 定 会 慢 慢 变 大 ， 直 至 大 到 需要 拆 分 。 我 们 希望 系 





统 的 架构 随 着 时 间 的 推移 增 量 地 进行 变化 。 关 键 是 要 在 拆 分 这 件 事情 变 得 太 过 昂贵 之 前 ， 
意识 到 你 需要 做 这 个 拆 分 。 


但 是 事实 上 ， 我 们 中 的 很 多 人 都 见 过 服务 变 大 到 非常 不 健康 的 状态 。 尽 管 知 道 相 比 于 手中 
巨大 的 怪兽 ， 一 系列 的 小 服务 更 容易 应 对 ， 但 我 们 仍然 在 一 点 点 地 帮助 它 成 长 。 这 又 是 为 
什么 呢 ? 


知道 从 哪里 开始 是 解决 方案 的 重要 组 成 部 分 ， 所 以 希望 本 章 的 内 容 对 你 有 所 帮助 。 但 另 一 
个 挑战 是 拆 分 服务 所 带 来 的 代价 。 找 一 个 环境 来 做 好 配置 并 启动 一 个 服务 等 任务 并 不 简 
单 。 所 以 要 怎么 做 呢 ? 好 吧 ， 如 果 某 些 对 的 事情 做 起 来 很 困难 ， 那 么 应 该 尽量 把 它们 变 得 
简单 。 对 库 和 轻 量 级 服务 框架 的 投资 能 够 减 小 创建 新 服务 的 代价 。 给 人 们 提供 自助 的 虚拟 
机 创建 服务 ， 或 者 甚至 提供 一 个 可 用 的 PaaS ， 这 些 措 施 能 够 大 大 简化 系统 环境 的 创建 及 在 
此 之 上 的 测试 工作 。 贯 穿 本 书 的 剩余 部 分 ， 我 们 会 讨论 一 些 方法 以 减 小 这 个 代价 。 


5.22 小 结 


我 们 通过 寻找 服务 边界 把 系统 分 解 开 来 ， 且 这 可 以 是 一 个 增 量 的 过 程 。 在 最 开始 就 要 养 成 
及 时 寻找 接 缝 的 好 习惯 ， 从 而 减少 分 割 服务 的 代价 ， 这 样 才 能 够 在 未 来 遇 到 新 需求 时 继续 
演化 我 们 的 系统 。 如 你 所 见 ， 有 些 工作 是 很 艰难 的 。 但 由 于 可 以 增 量 进行 ， 所 以 也 没什么 
好 怕 的 。 


那么 现在 可 以 开始 对 服务 进行 分 割 了 ， 但 是 我 们 也 引入 了 一 些 新 的 问题 : 需要 部 署 上 线 的 
组 件 变 多 了 ! 所 以 接 下 来 让 我 们 进入 到 部 署 的 世界 。 
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部 署 一 个 单 块 系统 的 流程 非常 简单 。 然 而 在 众多 相互 依赖 的 微服 务 中 ， 部 署 却 是 完全 不 同 
的 情况 。 如 果 部 署 的 方法 不 合适 ， 那 么 其 带 来 的 复杂 程度 会 让 你 很 痛苦 。 本 章 会 讲解 一 些 
技巧 和 技术 ， 从 而 帮助 我 们 在 细 粒 度 的 架构 中 更 好 地 部 署 微 服务 。 


我 会 从 持续 集成 和 持续 交付 说 起 。 这 些 概念 与 我 们 下 面 要 讨论 的 主题 并 不 相同 ， 但 又 有 
所 关联 ， 了 解 它 们 可 以 帮助 我 们 在 考虑 构建 什么 、 如 何 构建 以 及 如 何 部 署 时 ， 做 出 更 好 
的 决定 。 


6.1 持续 集成 简介 


CI (Continuous Integration， 持 续集 成 ) 已 经 出 现 很 多 年 了 ， 但 还 是 值得 花 点 时 间 来 好 好 复 
习 一 下 它 的 基本 用 法 ， 因 为 在 微服 务 之 间 的 映射 、 构 建 及 代码 库 版 本 管理 等 方面 ， 存 在 很 
多 不 同 的 选择 。 


CI 能 够 保证 新 提交 的 代码 与 已 有 代码 进行 集成 ， 从 而 让 所 有 人 保持 同步 。CI 服务 器 会 检 
测 到 代码 已 提交 并 签 出 ， 然 后 花 些 时 间 来 验证 代码 是 否 通 过 编译 以 及 测试 能 否 通过 。 


作为 这 个 流程 的 一 部 分 ， 我们 经 常会 生成 一 些 构建 物 (artifact) 以 供 后 续 验 证 使 用 ， 比 如 
启动 一 个 服务 并 对 其 运行 测试 。 理 想 情况 下 ， 这 些 构 建物 应 该 只 生成 一 次 ， 然 后 在 本 次 提 
交 所 对 应 的 所 有 部 署 环 节 中 使 用 。 这 不 仅 可 以 避免 多 次 重复 做 一 件 事情 ， 还 可 以 保证 部 
署 上 线 的 构建 物 与 测试 通过 的 那个 是 同一 个 。 为 了 重用 构建 物 ， 需 要 把 它们 放 在 某 个 仓储 
中 。CI 本 身 会 提供 这 样 的 仓储 ， 你 也 可 以 使 用 一 个 独立 系统 来 做 这 件 事 情 。 
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接 下 来 会 重点 关注 可 用 的 构建 物种 类 ， 然 后 在 第 7 章 会 重点 讲解 与 测试 相关 的 内 容 。 


CI 的 好 处 有 很 多 。 通 过 它 ， 我 们 能 够 得 到 关于 代码 质量 的 某 种 程度 的 快速 反馈 。CI 可 以 
自动 化 生成 二 进 制 文件 。 用 于 生成 这 些 构建 物 的 所 有 代码 都 在 版 本 的 控制 之 下 ， 所 以 如 果 
需要 的 话 ， 可 以 重新 生成 这 个 版 本 的 构建 物 。 通 过 CI 我 们 能 够 从 已 部 署 的 构建 物 回 湖 到 
相应 的 代码 ， 有 些 CI 工具 ， 还 可 以 使 在 这 些 代 码 和 构建 物 上 运行 过 的 测试 可 视 化 。 正 是 
因为 上 述 这 些 好 处 ，CI 才 会 成 为 一 项 如 此 成 功 的 实践 。 


你 真 的 在 做 Cl 吗 

我 猜 你 很 有 可 能 正在 组 织 内 使 用 持续 集成 。 如 果 疫 有 的 话 ， 你 应 该 开始 这 么 做 ， 因 为 这 个 
关键 实践 允许 我 们 更 快速 、 更 容易 地 修改 代码 。 如 果 没 有 持续 集成 ， 向 微服 务 架 构 进行 转 
型 就 会 非常 痛苦 。 即 便 如 此 ， 很 多 宣称 自己 在 做 CI 的 团队 并 没有 真正 在 做 。 他 们 认为 使 
用 了 CI 工具 就 算是 采用 了 CI 这 个 实践 ， 事 实 上， 只 有 工具 是 远 远 不 够 的 。 


我 很 喜欢 Jez Humble 用 来 测试 别人 是 否 真正 理解 CI 的 三 个 问题 。 


。 你 是 否 每 天 签 入 代码 到 主线 ? 
你 应 该 保证 代码 能 够 与 已 有 代码 进行 集成 。 如 果 你 的 代码 和 其 他 人 的 代码 没 被 频繁 地 放 
在 一 起 ， 那 么 将 来 的 集成 就 会 非常 困难 。 即 使 你 只 使 用 生命 周期 很 短 的 分 支 来 管理 这 些 
修改 ， 也 要 尽 可 能 频繁 地 把 代码 检 入 到 单个 主线 分 支 中 。 


。 你 是 否 有 一 组 测试 来 验证 修改 ? 
如 果 没 有 测试 ， 我 们 只 能 知道 集成 后 没有 语法 错误 ， 但 无 法 知道 系统 的 行为 是 否 已 经 被 
破坏 。 没 有 对 代码 行为 进行 验证 的 CI 不 是 真正 的 CI。 


。 当 构 建 失败 后 ， 团 队 是 否 把 修复 CI 当 作 第 一 优先 级 的 事情 来 做 ? 
绿色 的 构建 意味 着 ， 我 们 的 修改 已 经 安全 地 和 已 有 代码 集成 在 了 一 起 。 红 色 的 构建 意味 
着 ， 最 后 一 次 修改 很 可 能 有 问题 ， 这 时 只 能 提交 修复 构建 的 代码 。 如 有 果 你 允许 别人 在 构 
建 失败 时 提交 更 多 的 修改 ， 用 于 修复 构建 的 时 间 就 会 大 大 增加 。 我 见 过 在 一 个 团队 中 构 
建 失败 持续 了 好 几 天 ， 最 后 花 了 很 长 时 间 才 修复 这 个 构建 。 


6.2 ”把 持续 集成 映射 到 微服 务 


当 持续 集成 遇 上 微服 务 时 ， 需 要 著 虑 如 何 把 CI 的 构建 和 每 个 微服 务 映射 起 来 。 前 面 我 已 
经 提 过 很 多 次 ， 每 个 服务 应 该 能 够 独立 于 其 他 服务 进行 部 署 。 所 以 如 何在 微服 务 、CI 构建 
及 源 代 码 三 者 之 间 ， 建 立 起 合适 的 映射 呢 ? 


如 果 从 最 简单 的 做 法 开始 ， 我 们 可 以 先 把 所 有 东西 放 在 一 起 。 如 图 6-1 所 示 ， 现 在 我 们 有 
一 个 巨大 的 代码 库 ， 其 中 包括 所 有 的 代码 ， 并 且 只 有 一 个 构建 。 向 该 代码 库 任 何 一 次 的 代 
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码 提交 都 会 触发 构建 ， 在 这 个 构建 中 我 们 会 运行 与 所 有 微服 务 相关 的 验证 ， 然 后 产生 多 个 
构建 物 ， 所 有 这 些 都 在 同一 个 构建 中 完成 。 












每 个 构建 会 产生 三 个 


任何 修改 都 会 
触发 构建 构建 号 相同 的 构建 物 














6-1: 把 所 有 微服 务 放 在 同一 个 代码 库 中 ， 并 且 只 有 一 个 CI 构建 


这 种 方法 从 表面 上 看 比 其 他 方法 要 简单 得 多 : 因为 你 需要 关心 的 代码 库 比较 少 ， 而 且 从 概 
念 上 来 讲 ， 这 种 构建 也 比较 简单 。 开 发 者 的 工作 也 得 到 了 简化 : 我 只 需要 提交 代码 即 可 ， 
如 果 需 要 同时 在 多 个 服务 上 工作 的 话 ， 一 个 提交 就 能 搞定 。 


在 同步 发 布 (lock-step release) 中 ， 你 需要 一 次 性 部 署 多 个 服务 。 如 果 你 认为 这 不 是 个 问 
题 的 话 ， 那 么 上 述 模式 就 可 以 工作 得 很 好 。 一 般 来 讲 ， 我 们 绝对 应 该 避免 这 个 模式 ， 但 在 
项 目 初 期 是 个 例外 。 当 仅 有 一 个 团队 在 所 有 的 服务 上 工作 时 ， 这 种 模式 在 短 时 间 内 是 可 接 


受 的 。 


这 种 模式 存在 很 多 明显 的 缺点 。 如 果 我 仅仅 修改 了 图 6-1 中 用 户 服务 中 的 一 行 代码 ， 所 有 
其 他 的 服务 都 需要 进行 验证 和 构建 ， 而 事实 上 它们 或 许 并 不 需要 重新 进行 验证 和 构建 ， 所 
以 这 里 我 们 花费 了 不 必要 的 时 间 。 这 会 影响 CI 的 周期 时 间 ， 也 会 影响 单个 修改 从 开发 到 
上 线 的 速度 。 更 糟糕 的 是 ， 我 不 知道 哪些 构建 物 应 该 被 重新 部 署 ， 哪 些 不 应 该 。 我 是 否 需 
要 部 署 所 有 的 服务 来 保证 所 有 的 修改 都 能 生效 ?这 就 很 难说 清楚 了 。 而 且 通 过 提交 消息 来 
猜测 哪个 服务 真正 被 修改 了 ， 也 是 一 件 很 困难 的 事情 。 使 用 这 种 方式 的 组 织 ， 往 往 都 会 退 
回 到 同时 部 署 所 有 代码 的 模式 ， 而 这 也 正 是 我 们 非常 不 想 看 到 的 。 


很 不 地 ， 如 果 这 一 行 的 修改 导致 构建 失败 ， 那 么 在 构建 得 到 修复 之 前 ， 与 其 他 服务 相关 
的 代码 也 无 法 提交 。 想 象 一 下 ， 如 果 有 很 多 团队 在 共享 一 个 巨大 的 构建 ， 那 么 谁 会 对 此 


负责 ? 


这 种 方法 的 一 个 变 体 是 保留 一 个 代码 库 ， 但 是 存在 多 个 CI 会 分 别 映 射 到 代码 库 的 不 同 部 
分 ， 如 图 6-2 所 示 。 如 果 代 码 库 的 目录 结构 定义 得 合理 ， 就 会 很 容易 把 其 中 一 部 分 映射 到 
一 个 构建 中 。 总 的 来 说 我 不 太 喜 欢 这 个 方法 ， 因 为 这 个 模式 可 能 是 把 双 刃 剑 。 一 方面 它 会 
简化 检 出 / 检 入 的 流程 ， 但 另 一 方面 ， 它 会 让 你 觉得 同时 提交 对 多 个 服务 的 修改 是 一 件 很 
容易 的 事情 ， 从 而 做 出 将 多 个 服务 耦合 在 一 起 的 修改 。 但 是 相对 于 只 有 一 个 构建 的 多 个 服 
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务 来 说 ， 这 个 方法 已 经 好 很 多 了 。 












CI 服务 器 会 监听 该 代码 


每 个 构建 分 别 生成 
库 中 的 特定 部 物 


一 小 构 


上 听 该 
分 

















图 6-2: 将 一 个 代码 库 的 子 目 录 映 射 到 不 同 的 构建 中 


那么 还 有 其 他 方法 吗 ? 我 比较 喜欢 的 方法 是 ， 每 个 微服 务 都 有 自己 的 CI， 这 样 就 可 以 在 将 
该 微服 务 部 署 到 生产 环境 之 前 做 一 个 快速 的 验证 ， 如 图 6-3 所 示 。 这 里 的 每 个 微服 务 都 有 
自己 的 代码 库 ， 分 别 与 相应 的 CI 绑 定 。 当 对 代码 库 进 行 修改 时 ， 可 以 只 运行 相关 的 构建 
以 及 其 中 的 测试 。 我 只 会 得 到 一 个 需要 部 署 的 构建 物 ， 代 码 库 与 团队 所 有 权 的 匹配 程度 也 
更 高 了 。 如 果 你 对 一 个 服务 负责 ， 就 应 该 同时 对 相关 的 代码 库 和 构建 负责 。 在 这 样 的 世界 
中 ， 跨 微服 务 做 修改 会 更 加 困难 ， 但 是 我 认为 ， 相 比 单 块 代码 库 和 单 块 构建 流程 所 带 来 的 
问题 而 言 ， 这 个 问题 更 容易 解决 〈 比 如 使 用 命令 行 脚本 )。 





代码 提交 触发 
相应 的 构建 






每 个 构建 分 别 
生成 一 个 构建 物 








6-3: 每 个 微服 务 有 一 个 源 代码 库 和 CI 构建 

每 个 与 微服 务 相关 的 测试 也 应 该 和 其 本 身 的 代码 放 在 一 起 ， 这 样 就 很 容易 知道 对 于 某 个 服 
务 来 说 应 该 运行 哪些 测试 。 

所 以 每 个 微服 务 都 会 有 自己 的 代码 库 和 构建 流程 。 我 们 也 会 使 用 CI 构建 流程 ， 全 自动 化 


地 创建 出 用 于 部 署 的 构建 物 。 现 在 让 我 们 看 得 更 远 一 些 ， 看 看 持续 交付 的 概念 如 何 与 微服 
务 进行 结合 。 
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6.3 构建 流水 线 和 持续 交付 


在 早 些 年 使 用 持续 集成 时 ， 我 们 意识 到 了 把 一 个 构建 分 成 多 个 阶段 是 很 有 价值 的 。 比 方 说 
在 测试 中 可 能 有 很 多 运行 很 快 、 涉 及 范围 很 小 的 测试 ， 还 有 一 些 比 较 耗 时 、 涉 及 范围 较 大 
的 测试 ， 这 些 测试 通常 数量 也 比较 少 。 如 果 所 有 测试 一 起 运行 的 话 ， 有 可 能 一 个 快速 测试 
已 经 失败 了 ,但 是 因为 需要 等 待 那些 耗 时 测试 的 完成 ， 所 以 还 是 无 法 得 到 快速 反馈 。 而 且 
如 果 快 速 测试 失败 了 ， 再 接着 运行 剩 下 的 耗 时 测试 也 是 不 合理 的 ! 解决 这 个 问题 的 一 个 方 
案 是 ， 将 构建 分 解 成 为 多 个 阶段 ， 从 而 得 到 我 们 熟知 的 构建 流水 线 。 在 第 一 个 阶段 运行 快 
速 测 试 ， 在 第 二 个 阶段 运行 耗 时 测试 。 


构建 流水 线 可 以 很 好 地 跟踪 软件 构建 进度 : 每 完成 一 个 阶段 ， 就 离 终 点 更 近 一 步 。 流 水 线 
也 能 够 可 视 化 本 次 构建 物 的 软件 质量 。 构 建物 会 在 整个 构建 的 第 一 个 环节 生成 ， 然 后 它 会 
被 用 在 整个 流水 线 中 。 随 着 构建 物 通过 不 同 的 阶段 ， 我 们 越 来 越 能 确定 该 软件 能 够 在 生产 
环境 下 正常 工作 。 


CD (Continuous Delivery， 持 续 交 付 ) 基于 上 述 的 这 些 概念 ， 并 在 此 之 上 有 所 发 展 。 正 如 
Jez Humble 和 Dave Farley 的 同名 著作 中 提 到 的 ，CD 能 够 检查 每 次 提交 是 否 达到 了 部 署 到 
生产 环境 的 要 求 ， 并 持续 地 把 这 些 信息 反馈 给 我 们 ， 它 会 把 每 次 提交 当成 候选 发 布 版 本 来 
对 待 。 


为 了 更 好 地 理解 这 些 概 念 ， 我 们 需要 对 从 代码 提交 及 部 署 到 生产 环境 这 个 过 程 中 ， 所 需要 
经 历 的 流程 进行 建 模 ， 并 知道 哪些 版 本 的 软件 是 可 发 布 的 。 在 CD 中 ， 我 们 会 把 多 阶段 构 
建 流 水 线 的 概念 进行 扩展 ， 从 而 覆盖 软件 通过 的 所 有 阶段 ， 无 论 是 手动 的 还 是 自动 的 。 在 
图 6-4 中 ， 我 们 可 以 看 到 一 个 熟悉 的 示例 流水 线 。 


图 6-4: 一 个 使 用 构建 流水 线 建 模 的 标准 发 布 流程 


我 们 需要 一 个 真正 重视 CD 概念 的 工具 来 辅助 它 的 实施 。 我 看 过 很 多 人 尝试 对 CI 工具 进行 
扩展 来 做 CD， 大 多 数 情况 下 会 得 到 一 个 复杂 的 系统 ， 而 这 个 系统 ， 也 不 可 能 比 一 开始 就 
为 CD 设计 的 工具 好 用 。 完 全 支持 CD 的 工具 能 够 定义 和 可 视 化 这 些 流水 线 ， 并 对 发 布 到 
生产 环境 的 整个 过 程 进行 建 模 。 当 某 个 版 本 的 代码 经 过 流水 线 时 ， 如 果 它 通过 了 某 个 自动 
仿 证 的 步 又 ， 就 会 移动 到 下 一 阶段 。 有 些 阶段 可 能 是 手动 的 ， 举 个 例子 ， 如 果 你 有 一 个 手 
动 的 UAT (User Acceptance Testing， 用 户 验 收 测试 ) 流程 ， 那 么 也 应 该 可 以 使 用 CD 工具 
来 对 其 建 模 。 应 该 可 以 在 CD 工具 中 看 到 下 一 个 可 用 于 部 署 到 UAT 环境 的 构建 ， 并 触发 
部 署 流程 ， 如 果 通 过 了 手动 检查 ， 就 可 以 将 该 阶段 标记 为 成 功 ， 这 样 它 就 能 够 移动 到 下 一 
阶段 了 。 

















通过 对 整个 软件 上 线 过 程 进行 建 模 ， 软 件 质 量 的 可 视 化 得 到 了 极 大 改善 ， 这 可 以 大 大 减少 
发 布 之 间 的 间隔 ， 因 为 可 以 在 一 个 集中 的 地 方 看 到 构建 和 发 布 流程 ， 这 也 是 可 以 引入 改进 
的 一 个 焦点 。 


在 微服 务 的 世界 ， 我 们 想 要 保证 服务 之 间 可 以 独立 于 彼此 进行 部 署 ， 所 以 每 个 服务 都 有 自 
己 独立 的 CI。 在 流水 线 中 ， 构 建物 会 沿 着 上 线 方向 进行 移动 。 构 建物 的 大 小 和 形态 可 能 会 
有 很 大 差别 ， 后 面 会 看 到 一 些 最 常见 的 例子 。 


不 可 避免 的 例外 

所 有 好 的 规则 都 需要 考虑 例外 。 每 个 微服 务 一 个 构建 ”的 方法 ， 基 本 上 在 大 多 数 情况 下 
都 是 合理 的 ， 那 么 是 否 有 例外 呢 ?” 当 一 个 团队 刚 开始 启动 一 个 新 项 目 时 ， 尤 其 是 什么 都 没 
有 的 情况 下 ， 你 可 能 会 花 很 多 时 间 来 识别 出 服务 的 边界 。 所 以 在 你 识别 出 稳定 的 领域 之 
前 ， 可 以 把 初始 服务 都 放 在 一 起 。 


在 最 开始 的 阶段 ， 经 常会 发 生 跨 服务 边界 的 修改 ， 所 以 时 常会 有 些 内 容 移 入 或 者 移出 某 个 
服务 。 在 这 个 阶段 ， 把 所 有 服务 都 放 在 一 个 单独 的 构建 中 ， 可 以 减轻 跨 服务 修改 所 带 来 的 
代价 。 


当然 ， 在 这 个 阶段 你 必须 把 所 有 服务 打包 发 布 ， 但 这 应 该 是 一 个 过 渡 步 又 。 当 服务 的 API 
稳定 之 后 ， 就 可 以 开始 把 它们 移动 到 各 自 的 构建 中 。 如 果 几 周 (或 者 几 个 月 ) 之 后 ， 你 的 
服务 边界 还 是 不 够 稳定 ， 那 么 再 把 它们 合并 回 单 块 服务 中 (当然 还 可 以 在 边界 内 部 保持 模 
块 性 )， 然 后 花 些 时 间 去 了 解 领域 。 这 也 是 我 们 SnapCI 团队 的 经 验 ， 在 第 3 章 讨论 过 这 个 
问题 。 


6.4 平台 特定 的 构建 物 


大 多 数 技术 栈 都 有 相应 的 构建 物 类 型 ， 同 时 也 有 相关 的 工具 来 创建 和 安装 这 些 构建 物 。 
Ruby 中 有 gem，Java 中 有 JAR 包 和 WAR 包 ，Python 中 有 egg。 对 某 一 种 技术 有 经 验 的 开 
发 人 员 ， 都 会 比较 了 解 与 这 些 构 建物 相关 的 技术 ， 如 果 他 们 也 知道 如 何 创建 就 更 好 了 。 


但 是 从 微服 务 部 署 的 角度 来 看 ， 在 有 些 技 术 栈 中 只 有 构建 物 本 身 是 不 够 的 。 虽 然 可 以 把 
Java 的 JAR 包 做 成 可 执行 文件 ， 并 在 其 中 运行 一 个 嵌入 式 的 HTTP 进程 ， 但 对 于 类 似 于 
Ruby 和 Python 这 样 的 应 用 程序 来 说 ， 你 需要 使 用 一 个 运行 在 Apache 或 者 Nginx 中 的 进 
程 管理 器 。 所 以 为 了 部 署 和 启动 这 些 构 建物 ， 需 要 安装 和 配置 一 些 其 他 软件 ， 然 后 再 启动 
这 些 构 建物 。 类 似 于 Puppet 和 Chef 这 样 的 自动 化 配置 管理 工具 ， 就 可 以 很 好 地 解决 这 个 
问题 。 


另 一 个 问题 是 ， 不 同 技术 栈 生成 的 构建 物 各 不 相同 ， 所 以 混合 不 同 的 构建 物 进行 部 署 就 会 
很 复杂 。 可 以 尝试 从 某 人 想 要 同时 部 署 多 个 服务 的 角度 来 考虑 ， 比 如 ， 某 个 开发 或 者 测试 
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人 员 想 要 测试 一 些 功能 ， 或 者 做 一 次 生产 环境 的 部 署 。 现 在 想象 一 下 ， 所 要 部 署 的 服务 使 
用 了 三 种 完全 不 同 的 部 署 机制 ， 比 如 Ruby 的 Gem、JAR 包 和 Node.js 的 NPM 包 ， 你 会 有 
什么 感觉 ? 


自动 化 可 以 对 不 同 构建 物 的 底层 部 署 机 制 进行 屏蔽 。Chef、Puppet 及 Ansible 都 支持 一 些 
通用 技术 栈 的 构建 物 部 署 。 但 有 一 些 构 建物 的 部 署 会 非常 简单 。 


6.5 ”操作 系统 构建 物 


有 一 种 方法 可 以 避免 多 种 技术 栈 下 的 构建 物 所 带 来 的 问题 ， 那 就 是 使 用 操作 系统 支持 的 构 
建物 。 举 个 例子 ， 对 基于 RedHat 或 者 CentOS 的 系统 来 说 ， 可 以 使 用 RPM， 对 Ubuntu 来 
说 ， 可 以 使 用 deb 包 对 Windows 来 说 ， 可 以 使 用 MSI。 


使 用 OS 特定 构建 物 的 好 处 是 ， 在 做 部 署 时 不 需要 考虑 底层 使 用 的 是 什么 技术 。 只 需要 简 
单 使 用 内 置 的 工具 就 可 以 完成 软件 的 安装 。 这 些 操作 系统 工具 也 可 以 进行 软件 的 和 卸载 及 查 
询 ， 甚 至 还 可 以 把 CI 生成 的 构建 物 推送 到 软件 包 仓库 中 。OS 包 管 理工 具 ， 可 以 帮 你 完成 
很 多 原本 需要 使 用 Chef 或 者 Puppet 来 完成 的 工作 。 举 个 例子 ， 在 我 用 过 的 所 有 Linux 平 
台 上 ， 你 都 可 以 定义 软件 包 所 依赖 的 其 他 软件 包 ， 然 后 OS 就 会 自动 帮 你 完成 这 些 工具 的 
安装 。 

其 缺点 是 ， 刚 开始 编写 构建 脚本 的 过 程 可 能 会 比较 困难 。 对 于 Linux 来 说 ，FPM 包 管 理工 
具 (https://github.com/jordansissel/fpm/wiki) 为 创建 Linux 操作 系统 软件 包 提 供 了 很 好 的 抽 
象 ， 所 以 能 自然 地 从 基于 tarball 的 部 署 过 渡 到 基于 OS 的 部 署 。 在 Windows 的 世界 ， 这 件 
事情 就 有 些 棘 手 了 。 相 比 Linux 能 够 提供 的 功能 来 说 ， 类 似 MSI 这 样 的 原生 打包 系统 缺 
失 了 很 多 功能 。NuGet 软件 包 系 统 对 此 做 出 了 一 定 的 改善 ， 至少 它 简 化 了 开发 库 的 依赖 管 
理 。 最 近 ，Chocolatey NuGet 扩展 了 这 个 想法 ， 并 提供 了 一 个 Windows 上 的 软件 包 管理 器 
来 简化 部 署 工作 ， 它 提供 的 功能 和 Linux 提供 的 非常 接近 了 。 这 个 方向 肯定 是 正确 的 ， 但 
是 Windows 惯用 的 风格 是 部 署 在 IIS， 这 意味 着 ， 这 种 方法 可 能 对 一 些 Windows 团队 没有 
吸引 力 。 


当然 这 会 产生 另 一 个 缺点 ， 即 如 果 你 需要 部 署 到 多 种 操作 系统 的 话 ， 维 护 不 同 版 本 构建 物 
的 开销 就 会 很 大 。 如 果 你 创建 的 软件 包 是 用 来 给 别人 进行 安装 的 ， 那 么 就 别 无 选择 。 但 如 
果 软 件 是 部 署 在 你 可 控 的 机 器 上 ， 那 么 我 建议 ， 尽 量 减少 需要 维护 的 操作 系统 的 数量 ， 最 
好 只 维护 一 种 。 它 可 以 大 大 减少 不 同 机 器 之 间 可 能 存在 的 不 同 之 处 ， 并 减 小 部 署 和 维护 的 
工作 量 。 


我 见 过 很 多 团队 使 用 基于 OS 的 软件 包 管 理工 具 ， 很 好 地 简化 了 他 们 的 部 署 流程 ， 并 且 通 
常 不 会 产生 那 种 又 大 又 复杂 的 部 署 脚本 。 特 别 是 如 果 你 在 Linux 上 工作 ， 而 且 采 用 多 种 技 
术 栈 来 部 署 微服 务 ， 那 么 这 种 方法 就 很 适合 你 。 








6.6 定制 化 镜像 


使 用 类 似 Puppet、Chef 及 Ansible 这 些 自动 化 配置 管理 工具 的 一 个 问题 是 ， 需 要 花费 大 量 
时 间 在 机 器 上 运行 这 些 脚本 。 考 虑 这 样 一 个 例子 : 对 服务 器 进行 配置 ， 使 其 能 够 部 署 Java 
应 用 程序 。 假 设 我 的 服务 器 在 AWS 上 ， 使 用 的 是 标准 的 Ubuntu 镜像 。 为 了 运行 Java 应 
用 程序 ， 需 要 做 的 第 一 件 事情 是 安装 Oracle JVM。 这 个 简单 的 过 程 可 能 就 会 花费 五 分 钟 ， 
其 中 一 些 时 间 用 于 启动 机 器 上 ， 剩 下 的 则 用 于 安装 JVM。 然 后 我 们 才能 开始 考虑 把 软件 放 
上 


上 面 这 个 例子 比较 简单 ， 实 际 情况 下 还 需要 安装 其 他 常用 软件 。 比 如 ， 可 能 需要 使 用 
collectd 来 收集 操作 系统 的 状态 ， 使 用 logstash 来 做 日 志 的 聚合 ， 还 可 能 需要 安装 nagios 来 
做 监控 (第 8 章 会 详细 讨论 这 部 分 内 容 )。 随 着 时 间 的 推移 ， 越 来 越 多 的 东西 被 添加 进来 ， 
所 以 自动 化 配置 环境 所 需 的 时 间 也 会 越 来 越 长 。 


Puppet、Chef 和 Ansible 这 类 的 工具 ， 能 够 很 智能 地 避免 重复 安装 已 安装 的 软件 。 但 不 幸 
的 是 ， 这 并 不 意味 着 在 已 经 存在 的 机 器 上 运行 这 些 脚 本 总 会 很 快 ， 因 为 仅仅 是 做 这 些 检查 
就 会 花费 很 多 时 间 。 同 时 ， 我 们 也 想 避 免 一 台 机 器 运行 的 时 间 过 长 ， 因 为 这 会 引起 配置 漂 
移 (后 面 会 详细 解释 )。 如 果 使 用 按 需 计算 平台 ， 那 么 可 以 每 天 (如 果 不 是 更 频繁 的 话 ) 
按 需 关闭 和 启动 新 的 实例 ， 所 以 这 些 声明 式 的 配置 管理 工具 的 使 用 可 能 会 受到 限制 。 


随 着 时 间 的 推移 ， 看 着 同样 的 工具 被 一 饥 侦 重复 安装 ， 也 是 一 种 煎熬 。 如 果 在 CI 上 运行 
这 些 脚本 ， 那 么 也 无 法 得 到 快速 反馈 。 在 进行 部 署 时 ， 服 务 停止 的 时 间 也 会 增加 ， 因 为 你 
在 等 待 软件 的 安装 。 类 似 于 蓝 / 绿 部 署 (第 7 章 会 详细 讲解 ) 的 模式 ， 可 以 帮助 你 缓解 这 
个 问题 ， 因 为 它 允 许 我 们 在 老 版 本 服务 不 下 线 的 同时 ， 去 部 署 新 版 本 的 服务 。 


一 种 减少 启动 时 间 的 方法 是 创建 一 个 虚拟 机 镜像 ， 其 中 包含 一 些 常用 的 依赖 ， 如 图 6-5 所 
示 。 我 用 过 的 所 有 虚拟 化 平台 ， 都 允许 用 户 构建 自己 的 镜像 ， 而 且 现在 的 工具 提供 的 便利 
程度 ， 也 远 远 超 越 了 多 年 前 的 那些 工具 。 使 用 这 种 方法 之 后 事情 就 变 得 简单 一 些 了 。 现 在 
你 可 以 把 公共 的 工具 安装 在 镜像 上 ， 然 后 在 部 署 软件 时 ， 只 需要 根据 该 镜像 创建 一 个 实 
例 ， 之 后 在 其 之 上 安装 最 新 的 服务 版 本 即 可 。 
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1. 启动 普通 的 虚拟 机 
Puppet、Chef 等 








2. 应 用 版 本 管理 控制 的 配置 











3. 从 实例 烧 制 镜像 
6-5: 创建 定制 化 虚拟 机 镜像 


你 只 需要 构建 一 次 镜像 ， 然 后 根据 这 些 镜 像 启 动 虚拟 机 ， 不 需要 再 花费 时 间 来 安装 相应 的 
依赖 ， 因 为 它们 已 经 在 镜像 中 安装 好 了 ， 这 样 就 可 以 节省 很 多 时 间 。 如 果 你 的 核心 依赖 没 
有 改变 ， 那 么 新 版 本 的 服务 就 可 以 继续 使 用 相同 的 基础 镜像 。 


这 个 方法 也 有 一 些 缺 点 。 首 先 ， 构 建 镜像 会 花费 大 量 的 时 间 。 这 意味 着 ， 在 开发 环境 中 可 
能 需要 使 用 其 他 替代 部 署 方案 ， 避 免 花费 很 长 时 间 去 创建 一 个 二 进 制 部 署 物 。 其 次 ， 产 生 
的 镜像 可 能 会 很 大 。 当 你 创建 VMWare 镜像 时 ， 这 会 是 一 个 很 大 的 问题 。 想 象 一 下 ， 在 网 
络 上 传送 一 个 20GB 的 镜像 文件 是 怎样 一 个 场景 。 后 面 会 介绍 一 种 容器 技术 : Docker， 它 
可 以 避免 上 述 的 一 些 问题 。 


由 于 历史 原因 ， 构 建 不 同 平台 上 的 镜像 所 需 的 工具 链 是 不 一 样 的 。 构 建 VMWare 镜像 的 方 
式 就 和 构建 AWS AMI 的 不 同 ， 更 不 用 说 我 们 还 有 Vagrant 镜像 、Rackspace 镜像 等 。 如 果 
你 只 使 用 一 个 平台 ， 那 么 这 就 不 是 问题 ,但 并 不 是 所 有 的 组 织 都 这 么 走运 。 而 且 即 使 撒 开 
这 个 因素 ， 这 个 领域 的 工具 通常 也 很 难 用 ， 很 难 将 其 与 其 他 做 机 器 配置 的 工具 结合 在 一 起 
使 用 。 


Packer (http:/www.packer.io/) 可 以 用 来 简化 这 个 创建 过 程 。 你 可 以 选择 自己 喜欢 的 工具 
(Chef、Ansible、Puppet 或 者 其 他 ) 来 从 同一 套 配置 中 生成 不 同 平 台 的 镜像 。 该 工具 产生 
之 初 就 为 VMWare、AWS、Rackspcace 云 、Digital Ocean 和 Vagrant 提供 了 支持 ， 而 且 我 
也 见 到 此 方法 在 Linux 和 Windows 平台 上 的 成 功 运用 。 这 意味 着 ， 你 可 以 在 生产 环境 使 用 
AWS 来 做 部 署 ， 并 使 用 Vagrant 镜像 做 本 地 开发 和 测试 ， 它 们 都 源 于 同一 套 配 置 。 


6.6.1 将 镜像 作为 构建 物 


现在 已 经 做 到 了 使 用 包含 依赖 的 虚拟 机 镜像 来 加 速 反馈 ， 那 么 为 什么 要 止步 于 此 呢 ? 我们 














可 以 更 进一步 ， 把 服务 本 身 也 包含 在 镜像 中 ， 这 样 就 把 镜像 变 成 了 构建 物 。 现 在 当 你 局 动 
镜像 时 ， 服 务 就 已 经 就 绪 了 。Netflix 就 是 因为 这 个 快速 启动 的 好 处 ， 把 自己 的 服务 内 建 在 
了 AWS AMI 中 。 


就 像 使 用 OS 特定 软件 包 那 样 ， 可 以 认为 这 些 VM 镜像 是 对 不 同 技术 栈 的 一 层 抽 象 。 我 们 
不 需要 关心 运行 在 镜像 中 的 服务 ， 所 使 用 的 语言 是 Ruby 还 是 Java， 最 终 的 构建 物 是 gem 
还 是 JAR 包 ， 我 们 唯一 需要 关心 的 就 是 它 是 否 工 作 。 然 后 把 精力 放 在 镜像 创建 和 部 署 的 自 
动 化 上 即 可 。 这 个 简洁 的 方法 有 助 于 我 们 实现 另 一 个 部 署 概念 : 不 可 变 服 务 器 。 


6.6.2 不 可 变 服 务 器 


通过 把 配置 都 存 到 版 本 控制 中 ， 我 们 可 以 自动 化 重建 服务 ， 甚 至 重建 整个 环境 。 但 是 如 果 
部 署 完 成 后 ， 有 人 登录 到 机 器 上 修改 了 一 些 东西 呢 ? 这 就 会 导致 机 器 上 的 实际 配置 和 源 代 
码 管理 中 的 配置 不 再 一 致 ， 这 个 问题 叫 作 配 置 漂移 。 


为 了 避免 这 个 问题 ， 可 以 禁止 对 任何 运行 的 服务 器 做 手动 修改 。 相 反 ， 无 论 修改 多 么 小 ， 
都 需要 经 过 构建 流水 线 来 创建 新 的 机 器 。 事 实 上 ， 即 使 不 使 用 镜像 ， 你 也 可 以 实现 类 似 的 
模式 ， 但 它 是 把 镜像 作为 构建 物 的 一 个 非常 合理 的 扩展 。 你 甚至 可 以 在 镜像 的 创建 过 程 中 
禁止 SSH， 以 确保 没有 人 能 够 登录 到 机 器 上 做 任何 修改 。 


当然 ， 在 使 用 这 个 方法 时 ， 也 需要 考虑 前 面 提 到 的 周期 时 间 这 个 因素 。 同 时 需要 保证 ， 机 
器 上 的 持久 化 数据 也 被 保存 到 了 其 他 地 方 *。 尽 管 存在 这 些 复杂 性 , 但 我 看 到 很 多 团队 使 用 
这 种 模式 之 后 ， 部 署 过 程 变 得 更 容易 理解 ， 环 境 问 题 也 更 容易 定位 。 前 面 我 已 经 说 过 ， 任 
何 能 够 简化 工作 的 措施 都 值得 尝试 ! 


6.7 ”环境 


当 软件 在 CD 流水 线 的 不 同 阶段 之 间 移 动 时 ， 它 也 会 被 部 署 到 不 同 的 环境 中 。 如 果 考 虑 图 
6-4 中 所 示 的 构建 流水 线 ， 其 中 起 码 存在 4 个 环境 : 一 个 用 来 运行 耗 时 测试 ， 一 个 用 来 做 
UAT, 一 个 用 来 做 性 能 测试 ， 另 一 个 用 于 生产 环境 。 我 们 的 微服 务 构 建物 从 头 到 尾 都 是 一 
样 的 ， 但 环境 不 同 。 至 少 它们 的 主机 是 隔离 的 ， 配 置 也 不 一 样 。 而 事实 上 情况 往往 会 复杂 
得 多 。 举 个 例子 ， 我 们 的 生产 环境 可 能 会 包括 两 个 数据 中 心 的 多 台 主 机 ， 使 用 负载 均衡 来 
管理 ， 而 测试 环境 可 能 会 把 所 有 的 服务 运行 在 一 台 机 器 上 。 这 些 环境 之 间 的 不 同 可 能 会 引 
起 一 些 问 题 。 


多 年 前 我 就 因为 这 个 问题 吃 过 亏 。 在 生产 环境 中 ， 我 们 使 用 WebLogic 的 集群 来 部 署 一 个 
Java Web 服务 。 这 个 WebLogic 的 集群 会 在 不 同 的 节点 之 间 复 制 会 话 状态 ， 这 样 ， 如 果 一 


注 5: 因为 该 机 器 随时 可 能 会 被 销毁 。 一 一 译 者 注 





个 节点 宕 机 了 ， 其 他 节点 还 可 以 正常 使 用 。 但 由 于 WebLogic 的 许可 证 过 于 昂贵 ， 所 以 在 
测试 环境 中 只 使 用 了 一 台 机 器 ， 也 就 是 非 集群 的 配置 。 


在 一 次 发 布 中 这 带 来 了 非常 严重 的 问题 。 为 了 能 够 在 节点 之 间 复 制 会 话 状态 ， 应 该 对 这 些 
会 话 数据 做 恰当 的 序列 化 。 不 幸 的 是 ， 我 们 的 一 次 提交 破坏 了 这 个 功能 ， 所 以 部 署 之 后 复 
制 会 话 的 功能 就 出 问题 了。 最 后 通过 不 懈 的 努力 ， 终 于 在 测试 环境 中 也 使 用 了 集群 设置 。 


不 同 环境 中 部 署 的 服务 是 相同 的 ， 但 是 每 个 环境 的 用 途 却 不 一 样 。 在 我 的 开发 机 上 ， 想 要 
快速 部 署 该 服务 来 运行 测试 或 者 做 一 些 手 工 测 试 ， 此 时 相关 的 依赖 很 有 可 能 都 是 假 的 ， 而 
在 生产 环境 中 ， 需 要 把 该 服务 部 署 到 多 台 机 器 上 并 使 用 负载 均衡 来 管理 ， 甚 至 从 持久 性 
(durability) 的 角度 考虑 ， 还 需要 把 这 些 机 器 放 在 不 同 的 数据 中 心 去 。 


从 笔记 本 到 UAT， 最 终 再 到 生产 环境 ， 我 们 希望 前 面 的 那些 环境 能 不 断 地 靠近 生产 环境 ， 
这 样 就 可 以 更 快 地 捕获 到 由 环境 差异 导致 的 问题 。 你 需要 持续 地 做 权衡 。 有 时 候 重建 类 生 
产 环境 所 消耗 的 时 间 和 代价 会 让 人 望而却步 ， 所 以 你 必须 做 出 妥协 。 比 如 说 ， 把 软件 部 署 
到 AWS 上 需要 25 分 钟 ， 而 在 本 地 的 Vagrant 实例 中 部 署 服务 会 快 得 多 。 


类 生产 环境 和 快速 反馈 之 间 的 平衡 不 是 一 成 不 变 的 。 要 持续 关注 将 来 产生 的 那些 bug 和 反 
馈 时 间 ， 然 后 按 需 去 调节 这 个 平衡 。 


管理 单 块 系统 的 环境 很 具有 挑战 性 ， 尤 其 是 当 你 对 那些 很 容易 自动 化 的 系统 没有 访问 权 的 
时 候 。 当 你 需要 对 每 个 微服 务 考 虑 多 个 环境 时 ， 事 情 会 更 加 艰巨 。 后 面 会 讲 一 些 能 够 简化 
这 些 工 作 的 部 署 平台 。 


6.8 ”服务 配置 


服务 需要 一 些 配 置 。 理 想 情 况 下 ， 这 些 配 置 的 工作 量 应 该 很 小 ， 而 且 仅 仅 局 限于 环境 间 的 
不 同 之 处 ， 比 如 用 来 连接 数据 库 的 用 户 名 和 密码 。 应 该 最 小 化 环境 间 配 置 的 差异 。 如 果 你 
的 配置 修改 了 很 多 服务 的 基本 行为 ， 或 者 不 同 环境 之 间 的 配置 差异 很 大 ， 那 么 你 可 能 就 只 
能 在 一 套 环境 中 发 现 某 个 特定 的 问题 ， 这 是 极其 痛苦 的 事情 。 


所 以 ， 如 果 存 在 不 同 环境 之 间 的 配置 差异 ， 应 该 如 何在 部 署 流程 中 对 其 进行 处 理 呢 ? 一 种 
方法 是 对 每 个 环境 创建 不 同 的 构建 物 ， 并 把 配置 内 建 在 该 构建 物 中 。 刚 开始 看 这 种 方法 好 
像 挺 有 道理 。 配 置 已 经 被 内 建 了 ， 只 需要 简单 的 部 署 ， 它 应 该 就 能 够 正常 工作 了 ， 对 吧 ? 
其 实 这 是 有 问题 的 。 还 记得 持续 交付 的 概念 吗 ?我 们 想 要 创建 一 个 构建 物 作 为 候选 发 布 版 
本 ， 并 使 其 沿 着 流水 线 向 前 移动 ， 最 终 确认 它 能 够 被 发 布 到 生产 环境 。 想 象 一 下 ， 我 构 
建 了 一 个 Customer-Service-Test 构建 物 和 Customer-Service-Prod 构建 物 。 如 果 Customer- 
Service-Test 构建 物 通过 了 测试 ， 但 我 真正 要 部 署 的 构建 物 却 是 Customer-Service-Prod， 又 
要 如 何 验证 这 个 软件 最 终 会 真正 运行 在 生产 环境 中 呢 ? 





还 有 一 些 其 他 的 挑战 。 首 先 ， 创 建 这 些 构建 物 比较 耗 时 。 其 次 ， 你 需要 在 构建 的 时 候 知 道 
存在 哪些 环境 。 你 要 如 何 处 理 敏 感 的 配置 数据 ? 我 可 不 想 把 生产 环境 的 数据 库 密码 提交 到 
源 代码 中 ,但 是 如 果 在 创建 这 些 构 建物 时 需要 的 话 ， 通 常 这 也 是 难以 避免 的 。 


一 个 更 好 的 方法 是 只 创建 一 个 构建 物 ， 并 将 配置 单独 管理 。 从 形式 上 来 说 ， 这 针对 的 可 能 
是 每 个 环境 的 一 个 属性 文件 ， 或 者 是 传人 到 安装 过 程 中 的 一 些 参 数 。 还 有 一 个 在 应 对 大 量 
微服 务 时 比较 流行 的 方法 是 ， 使 用 专用 系统 来 提供 配置 ， 第 11 章 会 详细 讨论 这 个 话题 。 


6.9 服务 与 主机 之 间 的 映射 


很 早 之 前 ， 就 有 关于 “每 台 机 器 (machine) 应 该 有 多 少 个 服务 ”的 讨论 。 在 我 们 继续 之 
前 ， 应 该 找 一 个 比 “ 机 器 ”更 好 的 术语 。 在 前 虚拟 化 时 代 ， 单 个 运行 操作 系统 的 主机 与 底 
层 物理 基础 设施 之 间 的 映射 形式 有 很 多 种 。 因 此 ， 我 倾向 于 使 用 “主机 ”(host) 这 个 词 来 
做 通用 的 隔离 单元 ， 也 就 是 能 够 运行 服务 的 一 个 操作 系统 。 如 果 你 直接 在 物理 机 上 部 署 ， 
那么 一 台 物 理 机 映射 到 一 台 主 机 (在 当前 上 下 文中 ， 这 个 词 可 能 不 完全 正确 ， 但 确实 也 找 
不 到 更 好 的 了 )。 如 果 你 使 用 了 虚拟 化 ， 单 个 物理 机 会 映射 到 多 个 独立 的 主机 ， 并 且 每 个 
都 可 以 包含 一 个 或 者 多 个 服务 。 


所 以 在 芳 虑 不 同 的 部 署 模型 时 ， 我 会 使 用 主机 这 个 词 。 那 么 每 台 主 机 应 该 有 多 少 个 服 
务 昵 ? 


我 有 自己 倾向 的 模型 ， 但 要 孝 虑 多 个 因素 ， 来 决定 哪个 模型 最 适合 你 。 需 要 注意 的 一 点 
是 : 某 些 决定 会 限制 可 用 的 部 署 方式 。 


6.9.1 单 主机 多 服务 


如 图 6-6 所 示 ， 在 每 个 主机 上 部 署 多 个 服务 是 很 有 吸引 力 的 。 首 先 ， 从 主机 管理 的 角度 来 
看 它 更 简单 。 在 一 个 团队 管理 基础 设施 ， 另 一 个 团队 管理 软件 的 模式 下 ， 管 理 基础 设施 团 
队 的 工作 量 通常 与 所 要 管理 的 主机 量 成 正比 。 如 果 单个 主机 包含 更 多 的 服务 ， 那 么 主机 管 
理 的 工作 量 不 会 随 着 服务 数量 的 增加 而 增加 。 其 次 是 关于 成 本 。 即 使 你 有 一 个 能 够 提供 一 
些 配置 和 更 改 虚 拟 主机 大 小 等 服务 的 虚拟 化 平台 ， 虚 拟 化 的 基础 设施 本 身 也 会 占用 一 部 分 
资源 ， 从 而 减少 服务 可 用 的 资源 。 在 我 看 来 ， 上 述 这 些 问题 都 可 以 使 用 一 些 新 的 技术 和 实 
践 来 解决 ， 后 面 马上 会 讨论 到 。 
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图 6-6: 每 个 主机 多 个 微服 务 


这 个 模型 与 应 用 程序 容器 的 模型 类 似 。 ee 应 用 程序 容器 就 是 单 主机 多 服务 
模型 的 一 个 特例 ， 所 以 后 面 会 单独 考虑 这 个 场景 。 这 个 模型 也 会 简化 开发 人 员 的 工作 ， 因 
ee a 
类 似 。 如 果 想 要 考虑 其 他 模型 ， 也 应 该 从 概念 上 对 开发 人 员 保 持 简 单 性 。 


个 模型 也 有 一 些 挑战 。 首 先 ， 它 会 使 监控 变 得 更 加 困难 。 举 个 例子 ， 当 监控 CPU 使 
成 该 流 折 系 个 单 芭 的 服务 还 是 怠 个 机 要 电 ? 服务 之 间 的 相互 影响 也 是 不 可 避免 
的 。 如 果 一 个 服务 的 负载 很 高 ， 那 么 它 有 可 能 会 过 多 占用 系统 其 他 部 分 的 资源 。Gilt 在 运 
行 过 多 服务 时 就 遇 到 了 这 个 问题 。 最 开始 ， 它 在 同一 台 机 器 上 统一 管理 所 有 的 服务 ， 但 其 
中 茶 个 负载 过 大 的 服务 会 对 该 主机 上 的 其 他 服务 造成 影响 。 这 会 使 难以 对 主机 故障 所 造成 
的 影响 进行 分 析 ， 因 为 一 台 主 机 发 生 故 障 会 造成 很 大 的 影响 。 


服务 的 部 署 也 会 变 得 更 复杂 ， 因 为 很 难保 证 对 一 个 服务 的 部 署 不 会 影响 其 他 的 服务 。 举 个 
例子 ， 如 果 我 使 用 Puppet 来 准备 一 台 主 机 ， 但 是 每 个 服务 的 依赖 是 不 同 的 〈 而 且 还 有 可 
能 是 冲突 的 )， 该 如 何 处 理 ? 我 见 过 的 最 粳 糕 的 情况 是 ， 把 多 个 服务 绑 定 在 一 起 进行 部 署 ， 
即 部 署 全 部 的 服务 ， 这 些 工 作 都 是 为 了 简化 单 主机 多 服务 的 部 署 模型 。 在 我 看 来 ， 这 个 小 
小 的 改进 其 实 是 放弃 了 微服 务 的 一 个 关键 好 处 : 独立 部 署 不 同 的 服务 。 如 果 你 采用 了 单 主 
机 多 服务 模型 ， 请 确保 每 个 服务 都 可 以 独立 进行 部 署 。 


这 个 模型 对 团队 的 自治 性 也 不 利 。 如 果 不 同 团队 所 维护 的 服务 安装 在 了 同一 台 主 机 上 ， 那 
么 谁 来 配置 这 些 服 务 所 在 的 主机 呢 ? 很 有 可 能 最 后 有 一 个 专门 的 团队 来 做 这 些 事情 ， 这 就 
意味 着 ， 需 要 和 更 多 人 协调 才能 完成 服务 的 部 署 。 


还 有 一 个 问题 是 ， 这 个 方法 会 限制 部 署 构建 物 的 选择 。 基 于 镜像 的 部 署 模型 就 不 用 考虑 
了 ， 因 为 服务 器 是 不 可 变 的 ， 除 非 你 把 多 个 服务 打包 到 一 个 单独 的 构建 物 中 ， 当 然 这 是 我 
们 竭力 想 要 避免 的 做 法 。 

在 单个 主机 上 部 署 多 个 服务 ， 会 增加 对 单个 服务 进行 扩展 的 复杂 性 。 如 果 一 个 微服 务 处 理 
的 数据 很 敏感 ， 底 层 主 机 的 配置 也 可 能 会 有 所 不 同 ， 或 者 干脆 把 这 台 主 机 放置 在 不 同 的 网 
络 中 。 把 所 有 东西 放 在 一 台 主 机 上 意味 着 ， 即 使 每 个 服务 的 需求 是 不 一 样 的 ， 我 们 也 不 得 





不 对 它们 一 视 同仁 。 


我 的 同事 Neal Ford 提 到 过 ， 很 多 关于 部 署 和 主机 管理 的 工作 实践 都 是 为 了 优化 稀缺 资源 
的 利用 。 在 过 去 ， 如 果 我 想 要 加 一 台 主 机 ， 唯 一 的 选择 就 是 买 或 者 租 一 台 物 理 机 。 但 采购 
的 时 间 通 常 都 比较 长 ， 而 且 财 务 上 的 投入 也 比较 大 。 我 的 很 多 客户 都 是 两 三 年 才 添 加 并 配 
置 一 次 机 器 ， 在 这 个 时 间 点 之 外 想 要 添置 新 机 器 是 很 困难 的 。 但 是 按 需 计算 平台 的 出 现 大 
大 降低 了 计算 资源 的 成 本 ， 而 虚拟 化 技术 的 革新 ， 也 使 得 内 部 基础 设施 的 搭建 更 加 灵活 。 


6.9.2 ”应 用 程序 容器 


如 果 你 对 基于 IIS 的 .NET 应 用 程序 部 署 ， 或 者 基于 servlet 容器 的 Java 应 用 程序 部 署 比较 
熟悉 的 话 ， 那 么 应 该 非常 了 解 把 不 同 的 服务 放 在 同一 个 容器 中 ， 再 把 容器 放置 到 单 台 主 机 
上 的 模式 ， 如 图 6-7 所 示 。 这 么 做 的 初衷 是 使 用 容器 来 简化 管理 ， 比 如 对 多 实例 提供 集群 
支持 、 监 控 等 。 




















6-7: 单 台 主机 多 个 微服 务 


这 种 设置 也 可 以 节省 语言 运行 时 的 开销 。 比 如 ， 在 一 个 Java servlet 容器 中 部 署 五 个 Java 
服务 的 话 ， 只 需要 启动 一 个 JVM 即 可 。 而 如 果 在 同一 个 主机 上 使 用 代入 式 容器 的 方式 ， 
启动 五 个 独立 的 JVM 的 话 ， 开 销 就 会 相对 较 大 。 即 便 如 此 ， 我 还 是 认为 这 种 应 用 程序 容 
器 的 做 法 存在 很 多 问题 ， 所 以 在 使 用 时 需要 非常 谨慎 。 


第 一 个 缺点 是 ， 它 会 不 可 避免 地 限制 技术 栈 的 选择 。 你 只 能 使 用 一 种 技术 栈 。 除 此 之 外 ， 
它 还 会 限制 自动 化 和 系统 管理 技术 的 选择 。 后 面 马上 会 提 到 ， 管 理 多 台 主 机 最 常用 的 方式 
就 是 自动 化 ， 所 以 这 种 选择 上 的 限制 会 造成 双 倍 的 伤害 。 


我 对 某 些 容器 提供 的 特性 也 有 质疑 。 它 们 中 的 很 多 实现 ， 都 在 兜售 通过 集群 管理 来 支持 内 
存 中 的 共享 会 话 状态 的 能 力 ， 而 这 无 论 如 何 都 是 应 该 避免 的 方式 ， 因 为 它 会 影响 服务 的 可 
伸缩 性 。 当 我 们 考虑 在 微服 务 世界 中 使 用 的 聚合 监控 时 ， 它 们 提供 的 监控 能 力 又 难以 支 
撑 ， 第 8 章 会 对 此 做 更 多 讨论 。 其 中 的 很 多 容器 启动 时 间 也 特别 长 ， 这 会 影响 开发 人 员 的 
反馈 周期 。 
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除 此 之 外 还 存在 一 些 其 他 问题 。 试 图 在 类 似 于 JVM 这 样 的 平台 上 ， 做 一 些 应 用 程序 的 生 
命 周 期 管理 是 很 困难 的 ， 这 比 简单 地 重启 一 下 JVM 要 复杂 得 多 。 因 为 你 的 多 个 应 用 程序 
都 处 在 同一 个 进程 中 ， 所 以 分 析 资 源 的 使 用 和 线程 也 非常 复杂 。 记 住 ， 即 使 你 真 的 从 某 个 
特定 技术 的 容器 中 获得 了 一 些 好 处 ， 它 们 也 不 是 免费 的 。 先 不 说 它们 中 的 大 多 数 都 是 付费 
软件 这 一 点 ， 它 们 在 资源 上 的 额外 开销 也 特别 值得 考虑 。 


从 根本 上 来 说 ， 这 个 方法 还 是 想 要 试图 优化 资源 的 使 用 ， 但 在 如 今 的 环境 下 已 经 没有 必要 
这 么 做 了 。 无 论 你 最 终 是 否 使 用 将 多 个 服务 放 在 一 个 主机 中 的 部 署 模型 ， 我 都 会 强烈 建议 
你 看 看 自 包含 的 微服 务 构建 物 。 对 于 .NET 来 说 ， 可 能 是 类 似 Nancy 这 样 的 东西 ， 而 Java 
很 多 年 前 就 已 经 支持 了 。 举 个 例子 ， 令 人 敬仰 的 Jetty 戏 入 式 容 器 中 ， 使 用 了 一 个 非常 轻 量 
级 的 自 包含 HTTP 服务 器 ， 而 它 正 是 Dropwizard 技术 栈 的 核心 。Google 非常 广泛 地 采用 
了 仍 人 式 Jetty 容器 来 直接 服务 静态 内 容 ， 所 以 这 种 做 法 的 伸缩 性 肯定 是 没有 问题 的 。 


6.9.3 每 个 主机 一 个 服务 


图 6-8 显示 的 是 每 个 主机 一 个 服务 的 模型 ， 这 种 模型 避免 了 单 主机 多 服务 的 问题 ， 并 简化 
了 监控 和 错误 恢复 。 这 种 方式 也 可 以 减少 潜在 的 单 点 故障 。 一 台 主 机 宕 机 只 会 影响 一 个 服 
务 ， 虽 然 在 虚拟 化 平台 上 不 一 定 真 的 是 这 样 。 第 11 章 会 做 更 多 关于 伸缩 和 故障 方面 的 讨 
论 。 我 们 也 可 以 独立 于 其 他 服务 很 容易 地 对 某 一 个 服务 进行 扩展 ， 安 全 性 措施 也 可 以 更 有 
目的 性 地 在 更 小 范围 内 进行 。 




















图 6-8: 每 个 主机 一 个 微服 务 


更 重要 的 是 ， 这 样 做 之 后 我 们 才 有 可 能 采用 一 些 不 同 的 部 署 技 术 ， 比 如 前 面 提 到 的 基于 镜 
像 的 部 署 或 者 不 可 变 服务 器 模式 。 


我 们 已 经 为 引入 微服 务 架 构 带 来 了 很 多 复杂 性 。 接 下 来 要 做 的 事情 就 是 ， 寻 找 更 多 复杂 性 
的 根源 。 在 我 看 来 ， 如 果 没 有 一 个 可 用 的 PaaS 平台 ， 那 么 这 个 模型 从 整体 上 可 以 很 好 地 
降低 系统 的 复杂 性 。 单 主机 单 服务 的 模型 会 大 大 简化 问题 的 排查 。 如 果 你 还 没有 使 用 这 个 
模型 ， 我 也 不 会 说 微服 务 就 一 定 不 适合 你 。 但 我 会 建议 你 ， 将 其 看 作 减 小 微服 务 复杂 性 的 
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一 个 方 稚 。 


但 主机 数量 的 增加 也 可 能 是 个 问题 。 管 理 更 多 的 服务 器 ， 运 行 更 多 不 同 的 主机 也 会 引入 很 
多 的 隐 式 代价 。 尽 管 存在 这 些 问题 ， 但 我 仍然 认为 在 使 用 微服 务 架构 时 这 是 比较 好 的 模 
型 。 下 面 会 讲 到 如 何 降低 管理 大 量 主机 带 来 的 额外 负担 。 


6.9.4 平台 即 服务 


当 使 用 PaaS (Platform-as-a-Service， 平 台 即 服务 ) 时 ， 你 工作 的 抽象 层次 要 比 在 单个 主机 
上 工作 时 的 高 。 大 多 数 这 样 的 平台 依赖 于 特定 技术 的 构建 物 ， 比 如 Java WAR 包 或 者 Ruby 
gem 等 ， 这 些 平台 还 会 帮 你 自动 配置 机 器 然后 运行 。 其 中 一 些 能 够 透明 地 对 系统 进行 伸缩 
管理 ， 而 更 常用 的 方式 (根据 我 的 经 验 来 看 ， 也 是 更 不 容易 出 错 的 方式 ) 是 ， 人 允许 你 控制 
运行 服务 的 节点 数量 ， 然 后 平台 帮 你 处 理 其 余 的 工作 。 


在 编写 本 书 时 ， 就 已 经 出 现 了 很 多 好 用 的 PaaS 平台 。Heroku 就 是 一 个 黄金 级 的 PaaS。 它 
不 仅 能 够 管理 服务 的 运行 ， 还 能 以 非常 简单 的 方式 提供 数据 库 等 服务 。 


在 这 个 领域 也 可 以 自己 管理 主机 ， 但 相 比 托管 服务 来 说 ， 还 是 不 够 成 熟 。 


当 PaaS 解决 方案 正常 工作 时 ， 它 们 工作 得 特别 好 。 但 是 如 果 出 现 问 题 ， 你 通常 没 办 法 通 
过 操作 底层 操作 系统 来 修复 这 些 问题 。 所 以 这 也 是 你 要 做 的 取舍 。 以 我 的 经 验 来 看 ，PaaS 
平台 想 要 做 得 越 聪明 ， 通 常 也 就 可 能 错 得 越 离谱 。 我 用 过 的 好 几 个 PaaS ， 都 尝试 根据 应 用 
程序 的 使 用 情况 来 自动 伸缩 ， 但 都 做 得 不 好 。 因 为 平台 一 般 都 会 尽量 去 满足 一 些 比 较 通 用 
的 需求 ， 而 非特 定 用 户 的 特殊 需求 ， 所 以 你 的 应 用 程序 越 不 标准 ， 就 越 难 一 起 和 PaaS 进 
行 工作 。 

好 的 PaaS 解决 方案 已 经 为 你 做 了 很 多 ， 它 们 能 够 很 好 地 帮 你 管理 数量 众多 的 组 件 。 尽 管 
如 此 ， 我 还 是 不 确定 这 些 模 型 是 否 正确 ， 且 自 管理 主机 (self-hosted) 的 选择 又 很 有 限 ， 所 
以 这 种 方法 可 能 也 不 适合 你 。 但 是 在 未 来 的 十 年 ， 我 希望 PaaS 能 够 成 为 部 署 平 台 的 首选 ， 
而 不 是 自己 管理 主机 及 每 个 服务 的 部 署 。 


6.10 自动 化 


我 们 提 到 的 很 多 问题 都 可 以 使 用 自动 化 来 解决 。 当 机 器 数量 比较 少时 ， 手 动 管理 所 有 的 事 
情 是 有 可 能 的 。 我 以 前 就 这 么 做 过 。 记 得 当时 我 管理 了 少量 的 生产 环境 机 器 ， 登 录 到 机 器 
上 进行 日 志 收 集 、 软 件 部 署 、 进 程 查看 等 工作 。 我 的 生产 力 似乎 仅 受 能 够 打开 的 终端 窗口 
的 数量 的 限制 ， 所 以 当 我 开始 使 用 了 第 二 个 显示 器 时 ， 生 产 力 得 到 了 很 大 的 提高 。 但 是 这 
种 方式 很 快 就 不 适用 了 。 


单 主机 单 服务 的 模式 会 引入 很 多 主机 ， 从 而 产生 很 多 的 管理 开销 。 如 果 你 手动 做 所 有 的 事 
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情 ， 那 么 管理 开销 确实 会 很 大 ， 如 果 服 务 器 的 数量 翻 倍 ， 你 的 工作 量 也 会 翻 倍 ! 但 是 如 果 
我 们 将 主机 控制 、 服 务 部 署 等 工作 自动 化 ， 那 么 工作 量 肯定 就 不 会 随 着 主机 数量 的 增加 而 
线性 增长 。 


但 即使 我 们 控制 了 主机 的 数量 ， 还 是 会 有 很 多 服务 。 这 就 意味 着 有 更 多 的 部 署 要 处 理 、 更 
多 的 服务 变 监 控 、 更 多 的 日 志 要 收集 ， 所 以 自动 化 很 关键 。 


自动 化 还 能 够 帮助 开发 人 员 保持 工作 效率 。 自 助 式 配置 单个 服务 或 者 一 组 服务 的 能 力 ， 会 
大 大 简化 开发 人 员 的 工作 。 理 想 情况 下 ， 开 发 人 员 使 用 的 工具 链 应 该 和 部 署 生产 环境 时 使 
用 的 完全 一 样 ， 这 样 就 可 以 及 早 发 现 问题 。 本 章 的 很 多 技术 都 采纳 了 这 个 思想 。 


使 用 支持 自动 化 的 技术 非常 重要 。 让 我 们 从 管理 主机 的 工具 开始 考虑 这 个 问题 ， 你 能 否 
通过 写 一 行 代码 来 启动 或 者 关闭 一 个 虚拟 机 ? 你 能 否 自动 化 部 署 写 好 的 软件 ?你 能 否 不 
需要 手工 干预 就 完成 数据 库 的 变更 ? 想 要 游 才 有 余地 应 对 复杂 的 微服 务 架构 ， 自 动 化 是 
必 经 之 路 。 


关于 自动 化 好 处 的 两 个 案例 研究 

下 面 讲 两 个 使 用 自动 化 并 得 到 好 处 的 具体 的 例子 。 我 们 有 一 个 澳洲 的 客户 RealEstate.com. 
au (REA)。 这 家 公司 在 澳大利亚 和 亚太 地 区 的 其 他 地 区 提供 房产 的 买卖 服务 。 很 多 年 来 ， 
它 都 在 不 停 地 朝 着 分 布 式 、 微 服务 的 设计 前 进 。 刚 开始 这 个 旅程 时 ， 他 们 花 了 很 多 时 间 寻 
找 正确 的 工具 来 帮助 开发 人 员 配 置 机 器 、 部 署 代 码 、 监 控 服 务 等 。 这 些 前 期 工作 花费 了 很 
多 时 间 。 


四 


在 刚 开 始 的 三 个 月 ，REA 仅仅 成 功 地 把 两 个 新 的 微服 务 部 署 上 线 ， 开 发 团队 对 所 有 的 构 
建 、 部 署 及 线 上 支持 负责 。 在 接 下 来 的 三 个 月 ， 大 概 有 10~15 个 类 似 的 服务 部 署 上 线 。18 
个 月 后 ，REA 已 经 有 了 60~70 个 服务 。 


Gilt 是 一 个 创建 于 2007 年 的 在 线 时 尚 品 零售 商 ， 他 们 也 有 过 类 似 REA 这 样 的 经 历 (http:// 
www.infoq.com/presentations/scale-gilt)。2009 年 ，Gilt 发 现 自己 的 单 块 Rails 应 用 开始 变 得 
难以 扩展 ， 公 司 决定 开始 把 系统 分 解 成 微服 务 。 自 动 化 ， 尤 其 是 给 开发 人 员 使 用 的 自动 化 
工具 ， 成 为 Gilt 能 够 大 量 采 用 微服 务 的 关键 驱动 力 。 一 年 后 ，Gilt 大 约 有 10 个 微服 务 上 
线 ，2012 年 ， 超 过 100 个 ;2014 年 ， 超 过 450 个 。 也 就 是 说 ， 在 Gilt 平均 每 个 开发 人 员 
拥有 三 个 微服 务 。 


6.11 从 物理 机 到 虚拟 机 

管理 大 量 主机 的 关键 之 一 是 ， 找 到 一 些 方 法 把 现 有 的 物理 机 划分 成 小 块 。 类 似 于 VMWare 
这 样 的 传统 虚拟 化 技术 或 者 AWS， 大 大 减少 了 管理 主机 的 开销 。 在 这 个 领域 也 出 现 了 一 
些 新 的 值得 尝试 的 技术 ， 它 们 会 开启 处 理 微服 务 架 构 的 新 的 可 能 性 。 
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6.11.1 传统 的 虚拟 化 技术 

为 什么 拥有 多 台 主 机 的 成 本 会 很 高 ? 如 果 你 需要 把 每 个 服务 部 署 在 单 台 物理 机 上 ， 那 么 答 
案 是 显而易见 的 。 如 果 你 所 在 的 环境 就 是 这 样 的 ， 那 么 单 主机 多 服务 的 模式 可 能 更 适合 
你 。 但 是 就 像 前 面 提 到 的 ， 这 可 能 会 引入 更 多 的 限制 。 但 是 我 怀疑 你 们 中 的 大 多 数 人 ， 其 
实 多 多 少 少 都 使 用 了 一 些 虚 拟 化 技术 。 虚 拟 化 技术 允许 我 们 把 一 台 物 理 机 分 成 多 台独 立 的 
主机 ， 每 台 主 机 可 以 运行 不 同 的 东西 。 所 以 如 果 我 们 想 要 把 每 个 服务 部 署 在 独立 的 主机 
上 ， 为 什么 不 把 物理 设备 划分 成 小 块 呢 ? 


对 某 些 人 来 说 ， 这 么 做 是 可 行 的 。 但 是 把 机 器 划分 成 大 量 的 VM 并 不 是 免费 的 。 把 物理 机 
想象 成 一 个 装 袜子 的 抽 屠 ， 如 果 你 在 抽 敢 里 放置 了 很 多 木 隔 板 ， 那 么 可 存放 袜子 的 总 量 是 
多 还 是 少 了 ? 答案 很 明显 是 少 了 ， 因 为 隔 板 本 身 也 占 空间 ! 管理 抽 导 是 比较 简单 的 ， 不 仅 
仅 是 放 袜 子 ， 你 也 可 以 把 了 恤 放 在 某 个 隔 间 里 面 ， 但 是 更 多 的 隔 板 意 味 着 更 少 的 总 空间 。 


虚拟 化 技术 中 也 存在 类 似 袜子 抽 层 中 的 隔 板 这 样 的 东西 。 为 了 理解 这 些 额 外 的 开销 是 从 
哪里 来 的 ， 让 我 们 看 看 大 多 数 虚 拟 化 技术 是 怎么 做 的 。 图 6-9 展示 了 两 种 虚拟 化 技术 的 
对 比 。 左 边 叫 作 类 型 2 虚拟 化 ， 其 中 包含 了 很 多 层 ，AWS、VMWare、VSphere、Xen 和 
KVM 都 属于 这 个 类 型 (类 型 1 虚拟 化 指 的 是 只 能 运行 在 裸 机 之 上 ， 而 不 能 运行 在 操作 系 
统 之 上 的 技术 )。 在 物理 基础 设施 上 存在 一 个 主机 的 操作 系统 ， 在 这 个 OS 上 运行 一 个 叫 作 
hypervisor 的 东西 ， 它 的 任务 主要 有 两 个 。 第 一 ， 对 CPU 和 内 存 等 资源 做 从 虚拟 主机 到 物 
理 主机 的 映射 。 第 二 ， 给 我 们 提供 一 个 控制 虚拟 机 的 层 。 











0 要 由 


基于 容器 的 虚拟 化 (LXC) 


标准 虚拟 化 











6-9: 标准 类 型 2 虚拟 化 和 轻 量 级 容器 技术 的 对 比 


VM 中 的 不 同 主机 看 起 来 完全 不 同 。 在 不 同 的 虚拟 机 中 可 以 安装 不 同 的 操作 系统 ， 并 
且 有 其 各 自 的 内 核 。 你 可 以 认为 它们 就 是 完全 密封 的 机 器 ， 与 底层 的 物理 机 和 同一 个 
hypervisor 之 上 的 其 他 虚拟 机 之 间 都 是 隔离 的 。 


这 里 的 问题 是 ，hypervisor 本 身 也 需要 一 定 的 资源 来 完成 自己 的 工作 。 它 们 会 占用 CPU、LIO 
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和 内 存 等 。hypervisor 管理 的 主机 越 多 ， 占 用 的 资源 就 越 多 。 在 某 个 点 上 ， 这 些 额外 的 开销 
就 会 变 成 继续 切 分 物理 机 的 限制 。 在 实际 中 ， 这 意味 着 当 你 把 物理 机 切 分 得 越 来 越 小 时 ， 能 
够 得 到 的 收益 也 就 越 有 限 ， 因 为 hbypervisor 占用 了 很 多 资源 。 


6.11.2 Vagrant 


Vagrant 是 一 个 很 有 用 的 部 署 平台 ， 通 常 在 开发 和 测试 环境 时 使 用 ， 而 非 生产 环境 。 
Vagrant 可 以 在 你 的 笔记 本 上 创建 一 个 虚拟 的 云 。 它 的 底层 使 用 的 是 标准 的 虚拟 化 系统 
(通常 是 VirtualBox， 但 也 可 以 使 用 其 他 平台 )。 你 可 以 使 用 文本 文件 来 定义 一 系列 虚拟 机 ， 
并 且 可 以 在 其 中 定义 网 络 配置 及 镜像 等 信息 。 可 以 把 这 个 文本 文件 提交 到 代码 库 中 ， 与 团 
队 的 其 他 成 员 共 享 。 


这 些 工 具 能 够 帮助 你 在 本 地 机 器 上 轻松 地 创建 出 类 生产 环境 。 你 可 以 同时 创建 多 个 VM， 
通过 关 掉 其 中 的 几 台 来 测试 故障 模式 ， 并 且 可 以 把 本 地 目录 映射 到 虚拟 机 中 ， 这 样 就 可 以 
在 修改 完 代码 之 后 立即 看 到 效果 。 即 使 对 于 使 用 类 似 AWS 这 样 的 按 需 云 平台 的 团队 来 说 ， 
使 用 Vagrant 带 来 的 快速 反馈 也 能 够 给 他 们 带 来 不 少 好 处 。 


但 它 的 缺点 是 ， 开 发 机 上 会 有 很 多 额外 的 资源 消耗 。 如 果 一 个 服务 占用 一 台 虚 拟 机 ， 你 可 
能 就 很 难 在 本 地 机 器 上 搭建 起 整个 系统 。 结 果 就 是 为 了 让 开发 和 测试 有 好 的 体验 ， 可 能 需 
要 把 其 中 一 些 依赖 打桩 ， 从 而 让 事情 变 得 可 控 一 些 。 


6.11.3 ” Linux 容 器 

Linux 用 户 可 以 使 用 另外 一 种 虚拟 化 的 替代 方案 。 相 比 使 用 hypervisor 隔离 和 控制 虚拟 主 
机 的 方法 来 说 ，Linux 容器 可 以 创建 一 个 隔离 的 进程 空间 ， 进 而 在 这 个 空间 中 运行 其 他 的 
进程 。 

在 Linux 上 ， 进 程 必须 由 用 户 来 运行 ， 并 且 根 据 权 限 的 不 同 拥有 不 同 的 能 力 。 进 程 可 以 创 
建 其 他 进程 。 举 个 例子 ， 如 果 我 在 终端 启动 了 一 个 进程 ， 你 可 以 认为 它 是 终端 程序 的 子 进 
程 。Linux 内 核 的 任务 就 是 维护 这 个 进程 树 。 


Linux 容器 扩展 了 这 个 想法 。 每 个 容器 就 是 整个 系统 进程 树 的 一 棵 子 树 。 内 核 已 经 帮 有 我 们 
完成 了 给 这 些 容 器 分 配 物理 资源 的 任务 。 这 个 通用 的 方法 有 很 多 具体 的 形式 ， 比 如 Solaris 
Zones 和 OpenVZ， 但 最 流行 的 还 是 LXC。 基 本 上 所 有 的 现代 Linux 内 核 都 提供 了 LXC。 


图 6-9 显示 了 一 个 运行 LXC 的 主机 ， 如 果 仔 细 看 你 会 发 现 一 些 不 同 之 处 。 首 先 ， 不 需要 
hypervisor， 其 次 ， 尽 管 每 个 容器 可 以 运行 不 同 的 操作 系统 发 行 版 ， 但 必须 共享 相同 的 内 核 
(因为 进程 树 存在 于 内 核 中 )。 这 意味 着 ， 我 们 的 主机 操作 系统 可 以 运行 Ubuntu， 而 在 容器 
中 可 以 运行 CentOS， 只 要 它们 的 内 核 相 同 即 可 。 
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我 们 得 到 的 好 处 不 仅仅 是 避免 了 hypervisor 的 使 用 ， 还 可 以 加 快 反 馈 的 速度 ， 因 为 相 比 完 
整 的 虚拟 机 ，Linux 容器 可 以 启动 得 非常 快 。 对 于 一 台 虚 拟 机 来 说 ， 花 儿 分 钟 时 间 来 启动 
是 很 正常 的 ， 但 是 Linux 容器 通常 只 要 儿 秒 钟 就 能 完成 启动 。 你 还 可 以 更 好 地 对 容器 进行 
资源 的 分 配 ， 这 样 就 很 容易 通过 一 些 调整 来 充分 利用 底层 的 硬件 。 


由 于 容器 更 轻 量 ， 所 以 在 相同 的 硬件 上 能 够 运行 的 容器 数量 ， 比 能 够 运行 的 虚拟 机 数量 要 
大 得 多 。 如 图 6-10 所 示 ， 容 器 之 间 有 一 定 的 隔离 性 〈 虽 然 并 不 完美 )， 而 且 相 比 每 个 虚拟 
机 运行 一 个 服务 来 说 ， 容 器 对 资源 的 利用 更 加 高 效 。 

















图 6-10; 在 隔离 的 容器 中 运行 服务 


容器 也 能 够 很 好 地 与 虚拟 机 一 起 工作 。 我 见 过 很 多 项 目 都 会 选择 在 AWS 的 EC2 上 ， 启 动 
一 个 比较 大 的 实例 ， 然 后 在 此 之 上 运行 LXC 容器 。EC2 是 一 个 能 够 提供 短暂 型 按 需 计算 
的 平台 ， 容 器 非常 灵活 并 且 速 度 很 快 ， 灵 活 运用 可 以 很 好 地 利用 二 者 的 优势 。 


但 Linux 容器 也 不 是 没有 任何 问题 的 。 想 象 一 下 ， 很 多 微服 务 运行 在 一 台 主 机 上 的 不 同 容 
嚣 中。 外界 如 何 才 能 看 到 它们 呢 ?” 你 需要 某 种 方式 把 外 界 的 请 求 路 由 到 内 部 的 容器 中 。 在 
虚拟 化 技术 中 ， 大 多 hypervisor 已 经 帮 你 做 好 了 这 些 事情 。 我 曾经 见 过 一 些 人 花 了 很 多 时 
间 使 用 IPTable 来 配置 端口 映射 ， 从 而 能 够 直接 将 容器 暴露 给 外 界 。 男 一 点 需要 记 住 的 是 ， 
这 些 容器 并 不 是 彼此 完全 隔离 的 ， 比 如 ， 有 许多 文档 和 已 知 的 方法 介绍 了 某 些 容器 中 的 进 
有 可 能 会 跳出 该 容器 与 其 他 容器 中 的 进程 ， 或 者 与 底层 主机 发 生 干 扰 。 这 些 问 题 有 些 

故意 这 样 设计 的 ， 有 些 是 bug。 但 不 管 怎 样 ， 如 果 你 不 信任 你 的 代码 *， 那 么 就 别 指望 它 

ede ely 如 果 你 想 要 的 是 那 种 隔离 ， 那 么 需要 考虑 使 用 虚拟 机 。 


注 6: 比如 有 可 能 与 底层 平台 发 生 干 扰 。 一 一 译 者 注 





6.11.4 Docker 


Docker 是 构建 在 轻 量 级 容器 之 上 的 平台 。 它 帮 你 处 理 了 大 多 数 与 容器 管理 相关 的 事情 。 
你 可 以 在 Docker 中 创建 和 部 署 应 用 ， 这 些 基 于 容器 的 应 用 与 VM 世界 中 的 镜像 很 类 似 。 
Docker 也 能 管理 容 姓 的 配置 ， 并 帮 你 处 理 一 些 网 络 问 题 ， 黄 至 还 提供 了 自己 的 registry 概 
念 ， 允 许 你 存储 Docker 应 用 程序 的 版 本 。 


Docker 应 用 抽象 对 我 们 来 说 非常 有 用 ， 就 像 使 用 VM 镜像 技术 时 ， 底 层 实现 服务 的 技术 是 
不 可 见 的 一 样 。 在 服务 的 构建 中 可 以 创建 出 Docker 应 用 程序 ， 然 后 把 它们 存储 在 Docker 
registry 中 ， 那 么 就 搞定 了 。 


Docker 还 可 以 缓解 运行 过 多 服务 进行 本 地 开发 和 测试 的 问题 。 我 们 可 以 在 Vagrant 中 启动 
单个 VM， 然 后 在 其 中 运行 多 个 Docker 实例 ， 每 个 实例 中 包含 一 个 服务 ， 而 非 原来 的 一 个 
Vagrant 虚拟 机 中 包含 一 个 服务 。 接 下 来 ， 就 可 以 使 用 Vagrant 来 创建 和 销毁 Docker 平台 
本 身 ， 并 使 用 Docker 来 快速 配置 每 个 服务 了 。 


很 多 与 Docker 相关 的 技术 ， 能 够 帮助 我 们 更 好 地 使 用 它 。CoreOS 是 一 个 专门 为 Docker 设 
计 的 操作 系统 。 它 是 一 个 经 过 裁剪 的 Linux OS， 仅 提供 了 有 限 的 功能 以 保证 Docker 的 运 
行 。 这 意味 着 ， 它 比 其 他 操作 系统 消耗 的 资源 更 少 ， 从 而 可 以 把 更 多 的 资源 留 给 容器 。 它 
甚至 没有 类 似 debs 或 RPM 这 样 的 包 管 理 器 ， 所 有 的 软件 都 被 装 在 一 个 独立 的 Docker 应 用 
程序 中 ， 并 仅 在 各 自 的 容器 中 运行 。 


Docker 本 身 并 不 能 解决 所 有 的 问题 ， 它 只 是 一 个 在 单机 上 运行 的 简单 的 PaaSs 。 你 还 需要 
一 些 工具 ， 来 帮助 你 跨 多 台 机 器 管理 Docker 实例 上 的 服务 。 调 度 层 的 一 个 关键 需求 是 ， 
当 你 向 其 请 求 一 个 容器 时 会 帮 你 找到 相应 的 容器 并 运行 它 。 在 这 个 领域 ，Google 最 近 的 开 
源 工 具 Kubernetes 和 CoreOS 集群 技术 能 够 提供 一 定 的 帮助 ， 而 且 似 乎 每 个 月 都 有 新 的 竞 
争 者 出 现 。 另 一 个 基于 Docker 的 有 趣 的 工具 是 Deis (http://deis.io/)， 它 试图 在 Docker 之 
上 上， 提供 一 个 类 似 于 Heroku 那样 的 PaaS。 


前 面 我 提 到 过 PaaS 解决 方案 。 让 我 很 纠结 的 是 ， 这 些 平台 经 常 搞 错 抽象 级 别 ， 并 且 自 
管理 主机 的 解决 方案 ， 又 远 远 落后 于 类 似 Heroku 这 样 的 托管 主机 服务 。 但 在 这 些 方面 ， 
Docker 基本 上 都 做 对 了 ， 该 领域 持续 升温 的 热度 让 我 不 禁 推 测 ， 在 未 来 的 几 年 ， 它 能 够 在 
各 种 场景 下 成 为 合适 的 部 署 平台 。 在 很 多 情况 下 ， 这 种 Docker 加 上 一 个 合适 的 调度 层 的 
解决 方案 介 于 IaaS 和 PaaS 之 间 ， 很 多 地 方 使 用 CaaS (Communications-as-a-Service， 容 器 
即 服务 ) 来 描述 它 。 


有 好 儿 个 公司 都 在 生产 环境 使 用 了 Docker。 它 提供 了 很 多 轻 量 级 容器 的 好 处 ， 比 如 快速 启 
动 和 配置 等 ， 并 且 使 用 了 一 些 工 具 来 避免 它 的 缺点 。 如 果 你 正在 寻找 不 同 的 部 署 平台 ,我 
强烈 建议 你 看 看 Docker。 





6.12 一 个 部 署 接口 


不 管用 于 部 署 的 底层 平台 和 构建 物 是 什么 ， 使 用 统一 接口 来 部 署 给 定 的 服务 都 是 一 个 很 关 
键 的 实践 。 在 很 多 场景 下 ， 都 有 触发 部 署 的 需求 ， 从 本 地 开发 测试 到 生产 环境 部 署 。 这 些 
不 同 环境 的 部 署 机 制 应 该 尽量 相似 ， 我 可 不 想 因 为 部 署 流程 不 一 致 ， 导 致 一 些 只 能 在 生产 
环境 才能 发 现 的 问题 。 


在 这 个 领域 工作 了 这 么 多 年 后 ， 我 深信 ， 参 数 化 的 命令 行 调用 是 触发 任何 部 署 的 最 合理 的 
方式 。 可 以 使 用 CI 工具 来 触发 脚本 的 调用 ， 或 者 手动 键入 。 我 在 不 同 的 技术 栈 下 都 编写 
过 包装 脚本 来 完成 部 署 工 作 ， 从 Windows 批 处 理 到 bash， 再 到 Python Fabric 脚本 等 。 但 
所 有 这 些 命令 行 脚本 的 格式 都 大 同 小 异 。 


我 们 要 知道 部 署 的 是 什么 ， 所 以 需要 提供 已 知 实体 的 名 字 ， 在 这 里 也 就 是 微服 务 的 名 字 ， 
并 且 还 需要 知道 该 实体 的 版 本 。 在 不 同 的 情况 下 可 能 会 有 三 种 不 同 的 答案 。 当 在 本 地 工作 
时 ， 使 用 本 地 版 本 即 可 ， 进 行 测 试 时 ， 需 要 使 用 最 近 通 过 的 构建 ， 也 就 是 在 构建 物 仓库 中 
最 新 的 构建 物 ， 或 者 当 进 行 测试 和 定位 问题 时 ， 需 要 部 署 一 个 确切 版 本 的 构建 物 。 


第 三 件 也 是 最 后 一 件 需要 我 们 知道 的 事情 是 ， 应 该 把 微服 务 部 署 到 哪个 环境 中 。 正 如 前 面 
讨论 过 的 ， 我 们 的 微服 务 拓扑 在 不 同 的 环境 中 ， 可 能 是 不 同 的 ， 但 这 些 信息 应 该 对 我 们 不 
可 见 。 


想象 一 下 ， 我 们 创建 了 一 个 简单 的 需要 这 三 个 参数 的 部 署 脚本 。 在 进行 本 地 开发 时 ， 我 们 
想 要 把 目录 服务 部 署 到 本 地 环境 。 我 可 能 会 键入 : 


$ deploy artifact=catalog environment=local version=local 


代码 一 旦 提交 ，CI 就 会 进行 一 次 构建 ， 并 生成 一 个 新 的 构建 物 ， 其 编号 为 b456。 在 大 多 
数 CI 工具 中 ， 这 个 值 都 会 在 整个 流水 线 中 传递 。 到 测试 阶段 后 ，CI 可 以 按照 下 面 的 方式 
运行 命令 : 

$ deploy artifact=catalog environment=ci version=b456 


同时 ，QA 会 想 要 拉 取 最 新 的 目录 服务 到 集成 测试 环境 ， 来 进行 一 些 探 索性 测试 ， 并 准备 
了 一 个 showcase。 这 时 可 以 运行 : 

$ deploy artifact=catalog environment=integrated_qa version=latest 
我 使 用 最 多 的 工具 是 Fabric， 它 是 一 个 被 设计 用 来 将 命令 行 调用 映射 到 函数 的 Python 库 ， 
同时 也 能 够 提供 类 似 SSH 这 样 的 机 制 来 控制 远程 机 器 。 结 合 Boto 这 样 的 AWS 客户 端 来 
使 用 ， 你 就 能 完全 自动 化 大 型 AWS 环境 。 对 于 Ruby 来 说 ，Capistrano 类 似 于 Fabric。 在 
Windows 上 使 用 PowerShell， 可 以 达到 同样 的 效果 。 





环境 定义 

很 显然 ， 为 了 完成 上 述 工作 ， 还 需要 使 用 某 种 方式 对 环境 进行 定义 ， 并 对 服务 在 环境 中 的 
配置 进行 描述 。 你 可 以 把 环境 定义 想象 成 微服 务 到 计算 、 网 络 和 存储 资源 之 间 的 映射 。 我 
以 前 使 用 YAML 文件 进行 描述 ， 使 用 脚本 从 中 获取 数据 。 示 例 6-1 是 几 年 前 我 在 一 个 使 用 
AWS 的 项 目 上 ， 做 过 的 一 些 工 作 的 简化 版 。 


示例 6-1: 环境 定义 的 例子 
development: 

nodes: 

- ami_id: ami-ele1234 
size: ti.micro @ 
credentials_name: eu-west-ssh 外 
services: [cataLog-service] 
region: eu-west-1 


production: 
nodes: 
- ami_id: ami-ele1234 
size: m3.xlarge @ 
credentials_name: prod-credentials @ 
services: [catalog-servicel] 
number: 5 © 


@ 改变 实例 的 大 小 从 而 充分 利用 资源 。 你 不 需要 一 个 16 核 、64GB 内 存 的 机 器 来 做 探索 
性 测试 ! 

@ 能 够 在 不 同 环境 中 设置 不 同 凭证 (credential) 的 能 力 很 关键 。 敏 感 环境 的 凭证 信息 会 
被 存储 在 不 同 的 代码 库 中 ， 这 些 代 码 库 只 有 少数 人 可 以 访问 。 

@ 我 们 决定 默认 情况 下 ， 如 果 一 个 服务 有 多 台 节 点 需要 配置 ， 就 自动 为 其 创建 一 个 负载 


为 简洁 起 见 ， 我 去 掉 了 一 些 细节 。 
目录 服务 的 信息 存储 到 了 其 他 地 方 。 它 在 不 同 的 环境 中 是 一 致 的 ， 如 示例 6-2 所 示 。 
示例 6-2: 环境 定义 的 例子 i 


catalog-service: 
puppet_manifest : catalog.pp ©O@ 
connectivity: 
- protocol: tcp 
ports: [ 8080, 8081 ] 
allowed: [ WORLD ] 


@ 这 是 我 们 运行 的 Puppet 文件 的 名 字 。 在 这 个 例子 中 刚好 使 用 的 是 Puppet solo， 但 理论 
上 来 说 也 可 以 使 用 其 他 配置 系统 。 


很 显然 ， 这 里 的 很 多 行为 都 是 基于 约定 的 。 举 个 例子 ， 我 们 决定 规范 化 服务 可 以 使 用 的 端 
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口 ， 无 论 它们 在 哪里 运行 。 当 服务 有 一 个 以 上 实例 时 就 会 自动 配置 负载 均衡 器 (AWS 的 
ELB 很 容易 处 理 这 件 事情 )。 


构建 一 个 类 似 于 这 样 的 系统 的 工作 量 很 大 。 这 些 代价 基本 上 都 需要 在 前 期 付出 ， 但 是 做 好 
之 后 ， 它 能 够 很 好 地 管理 部 署 的 复杂 性 。 我 希望 将 来 你 不 需要 自己 做 这 些 事情 。Terraform 
是 来 自 Hashicorp 的 一 个 很 新 的 工具 ， 它 就 可 以 帮 你 做 上 述 事情 。 一 般 我 不 太 会 在 书 里 提 
这 么 新 的 工具 ， 因 为 与 其 说 它 是 个 工具 ， 还 不 如 说 只 是 一 个 想法 而 已 ， 但 它 正在 朝 着 上 述 
那个 方向 发 展 。 目 前 这 个 工具 还 在 初期 ， 但 它 的 功能 似乎 非常 有 趣 。 它 已 经 支持 了 多 个 不 
同 平台 的 部 署 工 作 ， 所 以 在 将 来 ， 也 许 它 能 够 很 好 地 胜任 这 项 工作 。 


6.13 “小 结 


这 里 已 经 覆盖 了 很 多 内 容 ， 接 下 来 按 顺 序 回顾 一 下 。 首 先 ， 专 广 于 保持 服务 能 够 独立 于 其 
他 服务 进行 部 署 的 能 力 ， 无 论 采 用 什么 技术 ， 请 确保 它 能 够 提供 这 个 能 力 。 我 倾向 于 一 个 
服务 一 个 代码 库 ， 对 于 每 个 微服 务 一 个 CI 这 件 事 情 ， 我 不 仅仅 是 倾向 ， 并 且 非 常 坚持 ， 
因为 只 有 这 样 才能 实现 独立 部 署 。 


接 下 来 ， 如 果 可 能 的 话 ， 将 每 个 服务 放 到 单独 的 主机 /容器 中 。 看 看 类 似 LXC 或 者 
Docker 这 样 的 替代 技术 ， 如 何 简 化 对 多 个 服务 的 管理 。 但 要 记 住 的 一 点 是 ， 无论 你 采用 什 
么 技术 ， 自 动 化 的 文化 对 一 切 管理 来 说 都 非常 重要 。 自 动 化 一 切 ， 如 果 你 采用 的 技术 不 支 
持 的 话 ， 就 去 选用 一 个 新 的 技术 吧 ! 使 用 类 似 AWS 这 样 的 平台 ， 能 够 在 你 进行 自动 化 时 
提供 大 量 的 便利 。 


确保 你 理解 部 署 技术 的 选择 会 对 开发 人 员 有 怎样 的 影响 ， 并 确保 他 们 也 能 够 感受 到 。 创 建 
工具 对 任何 给 定 服 务 到 不 同 环境 的 自助 部 署 提供 服务 ， 是 非常 重要 的 事情 ， 因 为 它 对 开 
发 、 测 试 和 运 维 人 员 都 能 提供 很 大 的 帮助 。 


最 后 ， 如 果 你 想 要 深入 了 解 这 些 话题 ， 我 强烈 推荐 你 读 一 读 Jez Humble 和 David Farley 的 
《持续 交付 》， 这 本 书 对 流水 线 设 计 和 构建 物 管理 有 更 深入 的 讨论 。 


在 下 一 章 中 ， 我 们 会 详细 讨论 上 面 提 到 的 一 个 话题 : 如 何 测试 微服 务 以 确保 它们 能 真正 地 
工人 
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从 我 开始 接触 编程 至 今 ， 自 动 化 测试 的 世界 日 新 月 异 ， 并 且 几 乎 每 个 月 都 会 出 现 新 的 工具 
和 技术 ， 不 断 推动 这 个 世界 向 前 发 展 。 不 过 ， 如 何 高 效 且 有 效 地 测试 分 布 式 系统 的 功能 依 
然 是 一 个 挑战 。 本 章 会 剖析 一 下 测试 细 粒 度 系统 面临 的 问题 和 挑战 ， 并 提出 一 些 解决 方 
案 ， 帮 助 大 家 更 有 信心 地 发 布 新 的 功能 。 


测试 的 覆盖 面 很 广 ， 即 使 只 讨论 自动 化 测试 ， 也 需 考 虑 其 多 。 使 用 微服 务 架 构 以 后 ， 测 试 
的 复杂 度 进一步 增加 。 面 对 这 样 的 挑战 ， 了 解 测试 有 哪些 不 同 的 类 型 ， 对 我 们 来 说 便 非常 
重要 了 。 它 可 以 帮助 我 们 实现 尽早 交付 软件 与 保持 软件 高 质量 之 间 的 平衡 ， 因 为 有 时 鱼 和 
能 掌 是 不 可 兼 得 的 。 


7.1 测试 类 型 
作为 一 名 顾问 ， 我 喜欢 使 用 形式 各 异 的 象限 来 对 世界 进行 分 类 。 起 初 ， 我 以 为 这 本 书 不 会 
有 这 样 的 和 象限。 幸运 的 是 ，Brian Marick 想 出 了 一 个 非常 棒 的 分 类 测试 体系 ， 恰 好 就 是 用 


象限 的 方式 。 图 7-1 展示 了 Lisa Crispin 和 Janet Gregory 在 《敏捷 软件 测试 》 一 书 中 ， 用 来 
将 不 同 测试 类 型 分 类 的 测试 象限 ， 这 个 象限 是 Matrick 的 演化 版 本 。 
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7-1: Brian Marick 的 测试 象限 。 出 自 《 敏 捷 软件 测试 》 第 1 版， 经 过 Pearson 出 版 社 的 许可 进行 
了 修改 


处 于 象限 底部 的 是 面向 技术 的 测试 ， 即 那些 首先 能 够 帮助 开发 人 员 构 建 系统 的 测试 。 这 个 
象限 里 面 的 测试 大 都 是 可 以 自动 化 的 ， 例 如 性 能 测试 和 小 范围 的 单元 测试 。 相 对 而 言 ， 处 
于 象限 顶部 的 测试 则 是 帮助 非 技术 背景 的 相关 人 和 群 ， 了 解 系统 是 如 何 工 作 的 。 这 种 测试 包 
括 象限 左上 角 的 大 范围 、 端 到 端的 验收 测试 ， 还 有 象限 有 上 角 的 由 用 户 代 表 在 UAT 系统 
上 进行 手工 验证 的 探索 性 测试 。 


在 这 个 象限 中 ， 每 种 测试 类 型 都 有 自己 相应 的 位 置 。 在 不 同系 统 中 ， 每 种 类 型 的 测试 占 比 
是 有 差别 的 。 重 点 是 要 理解 你 在 测试 方面 可 以 有 不 同 的 选择 。 放 弃 大 规模 的 手工 测试 ， 尽 
可 能 多 地 使 用 自动 化 是 近年 来 业界 的 一 种 趋势 ， 对 此 我 深 表 赞同 。 如 果 当 前 你 正在 使 用 大 
量 的 手工 测试 ， 我 建议 在 深入 微服 务 的 道路 之 前 ， 先 解决 这 个 问题 ， 否 则 很 难 获得 微服 务 
架构 带 来 的 好 处 ， 因 为 你 无 法 快速 有 效 地 验证 软件 。 


鉴于 本 章 的 目的 ， 我 们 将 忽略 手工 测试 。 手 工 测试 是 很 有 用 的 ， 也 肯定 有 它 存 在 的 必要 。 
不 过 ， 测 试 微服 务 架 构 的 系统 跟 测 试 独立 系统 的 区 别 ， 很 大 程度 上 在 于 各 种 类 型 的 自动 化 
测试 。 因 此 ， 我 们 将 集中 精力 在 自动 化 测试 上 面 。 


那么 ， 每 种 类 型 的 自动 化 测试 需要 多 大 的 比例 呢 ? 另 一 种 模型 在 帮助 我 们 回答 这 个 问题 上 
非常 有 用 ， 并 且 有 助 于 了 解 不 同 测 试 的 优 缺 点 。 


外 rm 
7.2 测试 范围 
Mike Cohn 在 他 的 《Scrum 敏捷 软件 开发 》 一 书 中 介绍 了 一 种 叫 作 “测试 金字 塔 ”的 模型 ， 
其 中 描述 了 不 同 的 自动 化 测试 类 型 。 这 个 金字 塔 模型 不 仅 可 以 帮助 我 们 思考 不 同 的 测试 类 
型 应 该 覆盖 的 范围 ， 还 能 帮助 我 们 思考 应 该 为 这 些 不 同 的 测试 类 型 投入 多 大 的 比例 。 如 图 
7-2 所 示 ，Cohn 在 他 的 原始 模型 中 把 自动 化 测试 划分 为 单元 测试 、 服 务 测 试 和 用 户 界 面 测 
试 三 层 。 












服务 测试 


可--- 一 ----- 一 -一 一 -一 一 一 


单元 测试 
更 快 
隔离 得 更 好 











7-2: Mike Cohn 的 测试 金字 塔 。 出 自 Mike Cohn 的 《Scrum 敏捷 软件 开发 》 第 1 版 ， 经 过 
Pearson 出 版 社 的 许可 进行 了 修改 


这 个 原始 模型 存在 一 个 问题 : 不 同 的 人 对 这 些 术语 有 不 同 的 解读 。 尤 其 是 “服务 ”这 个 词 
经 常 有 各 种 不 同 的 解读 ， 而 单元 测试 也 有 很 多 定义 。 只 测试 一 行 代码 是 单元 测试 吗 ? 我 会 
说 是 。 那 测试 多 个 国 数 或 者 多 个 类 仍然 是 单元 测试 吗 ? 我 会 说 不 是 ， 不 过 很 多 人 并 不 同 
意 ! 从 现在 开始 ， 尽 管 单元 测试 和 服务 测试 这 两 个 名 称 有 歧义 ， 我 还 是 继续 使 用 它们 。 不 
过 对 于 用 户 界 面 测试 ， 接 下 来 我 们 改称 它 为 端 到 端 测试 。 


考虑 到 大 家 的 困惑 ， 下 面 我 们 解释 一 下 金字 塔 各 层 所 代表 的 含义 。 


让 我 们 用 一 个 示例 来 解释 。 图 7-3 中 包含 帮助 台 和 Web 客户 端 ， 这 两 个 客户 端 程序 都 通 
过 与 客户 服务 的 交互 来 获取 、 预 览 和 编辑 客户 的 详细 信息 。 接 下 来 我 们 的 客户 服务 会 与 积 
分 账户 交互 。 在 积分 账户 中 ， 客 户 可 以 通过 购买 贡 斯 汀 ' 比 伯 的 CD 来 累积 积分 。 很 显然 ， 
这 只 是 整个 音乐 商店 系统 的 一 小 部 分 ， 但 它 足 以 让 我 们 深入 到 几 个 不 同 的 场景 来 思考 如 何 
测试 。 











7-3: 待 测试 的 部 分 音乐 商店 系统 


7.2.1 单元 测试 
单元 测试 通常 只 测试 一 个 函数 和 方法 调用 。 通 过 TDD (Test-Driven Design， 测 试 驱 动 开 
发 ) 写 的 测试 就 属于 这 一 类 ， 由 基于 属性 的 测试 技术 所 产生 的 测试 也 属于 这 一 类 。 在 单元 
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测试 中 ， 我 们 不 会 启动 服务 ， 并 且 对 外 部 文件 和 网 络 连 接 的 使 用 也 很 有 限 。 通 常情 况 下 你 
需要 大 量 的 单元 测试 。 如 果 做 得 合理 ， 它 们 运行 起 来 会 非常 非常 快 ， 在 现代 硬件 环境 上 运 
行 上 千 个 这 种 测试 ， 可 能 连 一 分 钟 都 不 需要 。 

在 Marick 的 术语 中 ， 单 元 测试 是 帮助 我 们 开发 人 员 的 ， 是 面向 技术 而 非 面 向 业务 的 。 我 


们 也 希望 通过 它们 来 捕获 大 部 分 的 缺陷 。 因 此 ， 如 图 7-4 所 示 ， 在 我 们 示例 的 客户 服务 中 ， 
单元 测试 是 彼此 独立 的 ， 分 别 履 盖 一 些小 范围 的 代码 。 





单个 单元 
测试 范围 











图 7-4: 示例 中 的 单元 测试 范围 


这 些 测试 的 主要 目的 是 ， 能 够 对 于 功能 是 否 正常 快速 给 出 反馈 。 单 元 测试 对 于 代码 重 构 非 
常 重要 ， 因 为 我 们 知道 ， 如 果 不 小 心 犯 了 错误 ， 这 些小 范围 的 测试 能 很 快 做 出 提醒 ， 这 样 
我 们 就 可 以 放心 地 随时 调整 代码 。 


7.2.2 ”服务 测试 

服务 测试 是 绕 开 用 户 界面 、 直 接 针 对 服务 的 测试 。 在 独立 应 用 程序 中 ， 服 务 测试 可 能 只 测 
试 为 用 户 界面 提供 服务 的 一 些 类 。 对 于 包含 多 个 服务 的 系统 ， 一 个 服务 测试 只 测试 其 中 一 
个 单独 服务 的 功能 。 


只 测试 一 个 单独 的 服务 可 以 提高 测试 的 隔离 性 ， 这 样 我 们 就 可 以 更 快 地 定位 并 解决 问题 。 
如 图 7-5 所 示 ， 为 了 达到 这 种 隔离 性 ， 我 们 需要 给 所 有 的 外 部 合作 者 打桩 ， 以 便 只 把 服务 
本 身 保留 在 测试 范围 内 。 





服务 测试 范围 











打桩 的 外 部 合作 者 








图 7-5; 示例 中 的 服务 测试 范围 








一 些 服 务 测试 可 能 会 像 单元 测试 一 样 快 ， 但 如 果 你 在 测试 中 使 用 了 真实 的 数据 库 ， 或 通过 
网 络 跟 打桩 的 外 部 合作 者 交互 ， 那 么 测试 时 间 会 增加 。 服 务 测试 比 简 单 的 单元 测试 覆盖 的 
范围 更 大 ， 因 此 当 运 行 失败 时 ， 也 比 单元 测试 更 难 定位 问题 。 不 过 ， 相 比 更 大 范围 的 测 
试 ， 服 务 测试 中 包含 的 组 件 已 经 少 多 了 ， 因 此 也 没 大 范围 的 测试 那么 脆弱 。 


7.2.3” 端 到 端 测试 

端 到 端 测试 会 覆盖 整个 系统 。 这 类 测试 通常 需要 打开 一 个 浏览 器 来 操作 图 形 用 户 界面 
(GUI) ， 也 很 容易 模仿 类 似 上 传 文件 这 样 的 用 户 交 互 。 

正如 图 7-6 所 示 ， 这 种 类 型 的 测试 会 覆盖 大 范围 的 产品 代码 。 因 此 ， 当 它们 通过 的 时 候 你 
会 感觉 很 好 ， 会 确定 这 些 被 测试 过 的 代码 在 生产 环境 下 也 能 工作 。 但 是 待 会 儿 就 会 看 到 ， 
伴随 着 覆盖 范围 的 增 大 ， 一 些 在 使 用 微服 务 过 程 中 很 难 销 除 的 负 作 用 也 会 随 之 而 来 。 





端 到 端 测试 范围 














图 7-6: 示例 中 的 端 到 端 测试 范围 


7.2.4 权衡 

在 使 用 这 个 金字 塔 时 ， 应 该 了 解 到 越 靠 近 金 字 塔 的 顶端 ， 测 试 覆盖 的 范围 越 大 ， 同 时 我 们 
对 被 测试 后 的 功能 也 越 有 信心 。 而 缺点 是 ， 因 为 需要 更 长 的 时 间 运 行 测 试 ， 所 以 反馈 周期 
会 变 长 。 并 且 当 测试 失败 时 ， 比 较 难 定位 是 哪个 功能 被 破坏 。 而 越 靠近 金字 塔 的 底部 ， 一 
般 来 说 测试 会 越 快 ， 所 以 反馈 周期 也 会 变 短 ， 测 试 失败 后 更 容易 定位 被 破坏 的 功能 ， 持 续 
集成 的 构建 时 间 也 很 短 。 另 外 ， 还 能 避免 我 们 在 不 知道 已 经 破坏 了 某 个 功能 的 情况 下 转 去 
做 新 的 任务 。 这 些 更 小 范围 的 测试 失败 后 ， 我 们 更 容易 定位 错误 的 地 方 ， 甚 至 经 常 能 定位 
到 具体 哪 行 代码 。 从 另 一 个 角度 来 看 ， 当 只 测试 了 一 行 代码 时 ， 我 们 又 很 难 有 充足 的 信心 
认为 ， 系 统 作为 一 个 整体 依然 能 正常 工作 。 


当 范 围 更 大 的 测试 (比如 服务 测试 或 者 端 到 端 测试 ) 失败 以 后 ， 我 们 会 尝试 写 一 个 单元 测 
试 来 重 现 问题 ， 以 便 将 来 能 够 以 更 快 的 速度 捕获 同样 的 错误 。 我 们 通过 这 种 方式 来 持续 地 
缩短 反馈 周期 。 


事实 上 ， 我 曾经 待 过 的 所 有 团队 使 用 的 测试 类 别名 称 都 跟 Cohn 在 金字 塔 中 使 用 的 不 完全 
相同 。 不 过 ， 不 管 怎么 称呼 它们 ， 测 试 金 字 塔 的 关键 是 ， 为 不 同 目的 选择 不 同 的 测试 来 覆 
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盖 不 同 的 范围 。 


7.2.5 比例 


既然 所 有 的 测试 都 有 优 缺 点 ， 那 每 种 类 型 需要 占 多 大 的 比例 呢 ? 一 个 好 的 经 验 法 则 是 ， 顺 
着 金字 塔 向 下 ， 下 面 一 层 的 测试 数量 要 比 上 面 一 层 多 一 个 数量 级 。 如 果 当 前 的 权衡 确实 给 
你 带 来 了 问题 ， 那 可 以 尝试 调整 不 同类 型 自动 化 测试 的 比例 ， 这 是 非常 重要 的 | 


举 个 例子 ， 我 曾 在 一 个 单 块 系统 上 工作 过 ， 这 个 系统 有 4000 个 单元 测试 、1000 个 服务 测 
试 和 60 个 端 到 端 测 试 。 我 们 发 现 测 试 的 反馈 周期 很 长 ， 其 原因 在 于 有 太 多 的 服务 测试 和 
端 到 端 测 试 ( 后 者 是 反馈 周期 变 长 的 罪魁 祸首 )， 之 后 我 们 便 尽量 使 用 小 范围 的 测试 来 赫 
换 这 些 大 范围 的 测试 。 


一 种 常见 的 测试 反 模式 ， 通 常 被 称 为 测试 甜 简 或 倒 金字 塔 。 在 这 种 反 模式 中 ， 有 一 些 其 至 
没有 小 范围 的 测试 ， 只 有 大 范围 的 测试 。 这 些 项 目的 测试 运行 起 来 往往 极度 缓慢 ， 反 馈 周 
期 很 长 。 如 果 把 这 些 缓慢 的 测试 作为 持续 集成 的 一 部 分 ， 那 就 很 难 做 到 多 次 构建 。 而 长 时 
间 的 构建 也 意味 着 当 提 交 有 错误 时 ， 需 要 很 长 一 段 时 间 才 能 发 现 这 个 问题 。 


7.3 实现 服务 测试 


在 自动 化 测试 的 所 有 类 型 中 ， 单 元 测试 是 比较 简单 的 ， 相 关 的 资料 也 非常 多 。 而 服务 测试 
和 端 到 端 测试 的 实现 则 要 复杂 得 多 。 


服务 测试 只 想 要 测试 一 个 单独 服务 的 功能 ， 为 了 隔离 其 他 的 相关 服务 ， 需 要 一 种 方法 给 所 
有 的 外 部 合作 者 打桩 。 如 果 想 要 测试 像 图 7-3 那样 的 客户 服务 ， 我 们 需要 部 署 这 个 服务 的 
实例 ， 然 后 给 它 所 有 的 下 游 合作 服务 打桩 。 


构建 是 持续 集成 的 第 一 步 ， 它 会 为 服务 创建 一 个 二 进 制 的 包 ， 所 以 部 署 服务 很 明确 。 不 过 
我 们 该 如 何 给 下 游 的 合作 者 打桩 呢 ? 


对 于 每 一 位 下 游 合 作者 ， 我 们 都 需要 一 个 打桩 服务 ， 然 后 在 运行 服务 测试 的 时 候 启 动 它们 
(或 者 确保 它们 正常 运行 )。 我 们 还 需要 配置 被 测 服务 ， 在 测试 过 程 中 连接 这 些 打桩 服务 。 
接着 ， 为 了 模仿 真实 的 服务 ， 我 们 需要 配置 打桩 服务 为 被 测 服务 的 请 求 发 回响 应 。 例 如 ， 
我 们 可 以 配置 积分 账户 为 不 同 的 客户 返回 不 同 的 预 设 积 4 


7.3.1 mock 还 是 打桩 

打桩 ， 是 指 为 被 测 服 务 的 请 求 创建 一 些 有 着 预 设 响应 的 打桩 服务 。 比 如 我 可 能 会 设置 积分 
账户 ， 当 有 请 求 询问 客户 123 的 余额 时 ， 它 应 该 返回 15 000。 这 时 候 的 测试 不 关心 这 个 打 
桩 服务 被 访问 了 0 次 、1 次 还 是 100 次 。 另 一 种 替换 打桩 的 方式 是 mock。 
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与 打桩 相 比 ，mock 还 会 进一步 验证 请 求 本 身 是 否 被 正确 调用 。 如 果 与 期 望 请 求 不 匹配 ， 
测试 便 会 失败 。 这 种 方式 的 实现 ， 需 要 我 们 创建 更 智能 的 模拟 合作 者 ， 但 过 度 使 用 mock 
会 让 测试 变 得 脆弱 。 相 比 之 下 ， 前 面 提 到 的 打桩 并 不 在 乎 请 求 发 生 了 0 次 、1 次 还 是 很 
多 次 。 


有 时 候 可 以 用 mock 来 验证 预期 的 副作用 是 否 发 生 。 例 如 ， 可 以 使 用 mock 来 验证 创建 一 
个 客户 后 ， 与 其 相关 的 积分 余额 是 否 也 被 创建 。 无 论 在 单元 测试 还 是 在 服务 测试 中 ， 使 用 
打桩 还 是 mock 都 是 很 微妙 的 选择 。 不 过 一 般 来 说 ， 我 在 服务 测试 中 使 用 打桩 的 次 数 要 远 
远 超过 使 用 mock 的 次 数 。 关 于 如 何 权衡 两 者 的 更 深入 的 讨论 ， 大 家 可 以 参考 弗 里 曼 和 普 
雷 斯 的 书 《 测 试 驱动 的 面向 对 象 软件 开发 》。 


通常 ， 我 使 用 mock 的 次 数 不 多 。 不 过 有 一 个 能 够 同时 支持 mock 和 打桩 的 工具 还 是 很 有 
用 的 。 


在 我 看 来 ， 打 桩 和 mock 之 间 的 区 别 很 明显 。 不 过 据 我 了 解 ， 很 多 人 会 感到 困惑 ， 特 别 是 
当 再 引入 其 他 诸如 fakes、spies 和 dummies 这 些 术 语 时 。Martin Fowler 把 包括 打桩 和 mock 
在 内 的 所 有 这 些 术 语 统称 为 测试 替身 (Test Double,，http://www.martinfowler.com/bliki/ 
TestDouble.html ) 。 


7.3.2 智能 的 打桩 服务 

以 前 我 都 是 自己 创建 打桩 服务 。 为 了 启动 测试 需要 的 打桩 服务 ， 我 尝试 过 Apache、Nginx 
和 风 入 式 Jetty 容器 ， 甚 至 还 使 用 过 命令 行 局 动 Python 的 Web 服务 器 。 这 样 的 工作 我 
曾经 重复 做 了 很 多 次 。 我 在 ThoughtWorks 的 同事 Brandon Bryars， 创 建 了 一 个 叫 作 
Mountebank (http://www.mbtest.org/) 的 打桩 /mock 服务 器 ， 它 帮助 了 很 多 人 避免 像 我 那样 
重复 工作 多 次 。 


可 以 把 Mountebank 看 作 一 个 通过 HTTP 可 编程 的 小 应 用 软件 。 虽 然 它 是 用 Node.js 编写 
的 ， 但 对 调用 它 的 服务 来 说 这 完全 是 透明 的 。 当 启动 后 ， 你 可 以 发 送 命令 告诉 它 需 要 打桩 
什么 端口 、 使 用 哪 种 协议 (目前 支持 TCP、HTTP 和 HTTPS， 未 来 会 支持 更 多 ) 以 及 当 收 
到 请 求 时 该 响应 什么 内 容 。 当 你 想 把 它 当 mock 来 使 用 时 ， 它 还 支持 对 预期 行为 的 设置 。 
尔 可 以 在 Montebank 的 一 个 实例 上 ， 很 方便 地 添加 或 删除 打桩 接口 ， 这 样 就 可 以 使 用 一 个 
实例 来 打桩 多 个 下 游 的 合作 服务 。 


所 以 ， 在 运行 客户 服务 的 服务 测试 时 ， 我 们 需要 启动 客户 服务 本 身 外 加 一 个 Mountebank 
的 实例 来 作为 积分 账户 的 替身 。 如 果 这 些 测 试 通过 ， 我 立马 就 可 以 部 署 客户 服务 啦 ! 等 
等 ， 真 的 可 以 吗 ? 那些 调用 客户 服务 的 服务 (比如 帮助 台 和 网 络 商 店 ) 怎么 办 ? 我 们 更 新 
的 内 容 是 否 会 影响 它们 ? 是 的 ， 我 们 差点 忘记 了 ， 测 试 金 字 塔 顶部 还 有 一 个 非常 重要 的 测 
试 : 端 到 端 测 试 。 
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7.4 微妙 的 端 到 端 测试 

在 微服 务 系统 中 ， 界 面 展示 的 一 个 功能 往往 涉及 多 个 服务 。Mike Cohn 在 金字 塔 中 引入 端 
到 端 测试 关键 是 想 通 过 这 种 用 户 界面 的 测试 覆盖 其 涉及 的 所 有 服务 ， 从 而 帮助 我 们 了 解 
系统 的 概况 。 


所 以 ， 运 行 端 到 端 测试 需要 部 署 多 个 服务 。 显 然 ， 这 种 测试 可 以 覆盖 更 大 的 范围 ， 也 让 我 
们 对 系统 的 正常 工作 更 有 信心 。 另 一 方面 ， 这 种 测试 运行 起 来 比较 慢 ， 定 位 失败 也 更 加 困 
难 。 为 了 更 深入 地 理解 这 些 优 缺 点 ， 我 们 来 看 看 前 面 的 例子 是 如 何 体现 这 些 的 。 


假设 我 们 开发 了 客户 服务 的 一 个 新 版 本 。 我 们 想 尽快 把 新 版 本 部 署 到 生产 环境 ， 但 又 担心 
引入 的 某 些 变化 会 破坏 帮助 台 或 者 网 络 商店 的 功能 。 没 问题 ， 让 我 们 部 署 所 有 的 服务 ， 然 
后 对 帮助 台 和 网 络 商店 运行 一 些 端 到 端 测 试 来 验证 是 否 引 入 了 缺陷 。 一 个 不 成 熟 的 方案 
是 ， 直 接 在 客户 服务 流水 线 的 最 后 增加 这 些 测试 ， 如 图 7-7 所 示 。 


DE 


图 7-7: 加 在 客户 服务 流水 线 的 最 后 : 这 种 方式 正确 吗 ? 


到 目前 为 止 还 好 。 但 我 们 首先 需要 问 自己 一 个 问题 ， 应 该 使 用 其 他 服务 的 哪个 版 本 ? 是 否 
应 该 使 用 与 生产 环境 相同 的 帮助 台 和 网 络 商店 版 本 ? 这 是 一 个 合理 的 假设 ， 但 是 如 果 帮 助 
台 或 网 络 商店 也 有 新 的 版 本 准备 上 线 ， 那 该 怎么 办 呢 ? 








另 一 个 问题 是 ， 如 果 说 客户 服务 的 测试 需要 部 署 多 个 服务 ， 然 后 运行 端 到 端 测 试 来 覆盖 ， 
那么 其 他 服务 的 端 到 端 测 试 该 怎么 办 ?如 果 它 们 也 测试 同样 的 功能 ， 就 会 发 现 这 些 测试 有 
很 多 的 重合， 而 且 需 要 在 运行 测试 前 花费 大 量 的 成 本 来 重复 部 署 这 些 服务 。 


解决 这 两 个 问题 的 一 种 优雅 的 方法 是 ， 让 多 个 流水 线 扁 入 fan in) 到 一 个 独立 的 端 到 端 测 
试 的 阶段 (stage)。 使 用 这 种 方法 ， 任 意 一 个 服务 的 构建 都 会 触发 一 次 端 到 端 测试 ， 如 图 
7-8 所 示 。 一 些 更 好 地 支持 构建 流水 线 的 CI 工具 可 以 很 方便 地 实现 这 样 的 扁 和 模型。 























图 7-8: 履 盖 多 个 服务 的 端 到 端 测试 的 一 种 标准 方式 


这 样 ， 任 意 一 个 服务 在 任何 时 候 只 要 发 生变 化 ， 我 们 都 会 运行 针对 这 些 服务 的 测试 。 如 果 
测试 通过 ， 便 会 触发 端 到 端 测 试 。 这 个 方法 听 起 来 很 棒 ， 不 是 吗 ? 不 过 ， 这 样 做 还 是 会 有 
一 些 问题 。 


7.5” 端 到 端 测试 的 缺点 
遗民 的 是 ， 端 到 端 测试 有 很 多 的 缺点 。 


7.6 ”脆弱 的 测试 

随 着 测试 范围 的 扩大 ， 纳 入 测试 的 服务 数量 也 会 相应 地 增加 。 这 些 服务 有 可 能 会 使 测试 失 
败 ， 而 这 种 失败 并 不 是 因为 功能 真 的 被 破坏 了 ， 而 是 由 其 他 一 些 原因 引起 的 。 举 例 来 说 ， 
如 果 我 们 有 一 个 测试 来 验证 订购 CD 的 功能 ， 这 个 功能 涉及 四 到 五 个 服务 ， 其 中 任意 一 个 
服务 停止 运行 都 会 导致 测试 的 失败 ， 但 这 种 失败 与 被 测 的 功能 本 身 没有 关系 。 同 样 ， 一 -个 
临时 的 网 络 故障 也 可 能 导致 测试 失败 ， 这 也 跟 被 测 的 功能 本 身 没 有 关系 。 


包含 在 测试 中 的 服务 数量 越 多 ， 测 试 就 会 越 脆弱 ， 不 确定 性 也 就 越 强 。 如 果 测 试 失败 以 后 
每 个 人 都 只 是 想 重新 运行 一 遍 测 试 ， 然 后 希望 有 可 能 通过 ， 那 么 这 种 测试 是 脆弱 的 。 不 仅 
这 种 涉及 多 个 服务 的 测试 很 脆弱 ， 涉 及 多 线程 功能 的 测试 通常 也 会 有 问题 ， 测 试 失败 有 时 
是 因为 资源 竞争 、 超 时 等 ， 有 时 是 功能 真 的 被 破坏 了 。 脆 弱 的 测试 是 我 们 的 敌人 ， 因 为 这 
种 测试 的 失败 不 能 告诉 我 们 什么 有 用 的 信息 。 如 果 所 有 人 都 习惯 于 重新 构建 CI， 以 期 望 刚 
失败 的 测试 通过 ， 那 么 最 终结 果 只 能 是 看 到 堆积 的 提交 ， 然 后 突然 间 你 会 发 现 有 一 大 堆 功 
能 早已 经 被 破坏 了 。 


当 发 现 脆弱 的 测试 时 ， 我 们 应 该 竭尽 全 力 去 解决 这 个 问题 。 否 则 ， 人 们 就 会 开始 对 测试 套 
件 失 去 信心 ， 因 为 它们 “总 是 这 样 失败 ”"。 一 个 包含 脆弱 测试 的 测试 套件 往往 会 成 为 Diane 
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Vaughn 所 说 的 异常 正常 化 (the normalization of deviance) 的 受害 者 ， 也 就 是 说 ， 随 着 时 
间 的 推移 ， 我 们 对 事情 出 错 变 得 习以为常 ， 并 开始 接受 它们 是 正常 的 。 因为 人 类 有 这 种 倾 
向 ， 所 以 在 开始 接受 失败 测试 是 正常 的 之 前 ， 应 该 尽快 找到 这 些 脆 弱 的 测试 并 消除 它们 。 


在 “Eradicating Non-Determinism in Tests” (http://martinfowler.com/articles/nonDeterminism. 
html 这 篇 博文 中 ，Martin Fowler 建议 发 现 脆弱 的 测试 时 应 该 立刻 记录 下 来 ， 当 不 能 立即 修 
复 时 ， 需 要 把 它们 从 测试 套件 中 移 除 ， 然 后 就 可 以 不 受 打扰 地 安心 修复 它们 。 修 复 时 ， 首 
先 看 看 能 不 能 通过 重 写 来 避免 被 测 代码 运行 在 多 个 线程 中 ， 再 看 看 是 否 能 让 运行 的 环境 更 
稳定 。 更 好 的 方法 是 ， 看 看 能 否 用 不 易 出 现 问题 的 小 范围 测试 取代 脆弱 的 端 到 端 测 试 。 有 
时 候 ， 改 变 被 测 软件 本 身 以 使 之 更 容易 测试 也 是 一 个 正确 的 方向 。 


7.6.1 “ 谁 来 写 这 些 测试 

既然 这 些 测试 是 某 服务 流水 线 的 一 部 分 ， 一 个 比较 合理 的 想法 是 ， 拥 有 这 些 服务 的 团队 应 
该 写 这 些 测试 (我们 将 在 第 10 章 进一步 讨论 服务 所 有 权 的 话题 )。 但 是 需要 考虑 当 一 个 服 
务 涉及 多 个 团队 ， 而 且 端 到 端 测试 也 被 多 个 团队 共享 时 ， 谁 该 负责 实现 和 维护 这 些 测试 ? 


我 曾经 见 过 很 多 反 模 式 。 一 种 情况 是 ， 这 些 济 试 对 所 有 人 开放 ， 所 有 团队 成 员 都 可 以 在 无 
须 对 测试 套件 质量 有 任何 理解 的 情况 下 随意 添加 测试 。 这 往往 会 导致 测试 用 例 爆炸 ， 有 时 
甚至 会 导致 我 们 前 面谈 到 的 测试 甜 简 。 我 还 曾经 看 到 过 这 样 的 情况 ， 因 为 测试 没有 真正 的 
拥有 者 ， 所 以 它们 的 结果 会 被 忽略 。 当 测试 失败 后 ， 每 个 人 都 认为 是 别人 的 问题 ， 大 家 根 
本 不 在 乎 测试 是 否 通过 。 


有 些 组 织 的 答案 是 由 一 个 专门 的 团队 来 写 这 些 测试 。 这 可 能 是 灾难 性 的 。 开 发 软件 的 人 渐 
渐 远 离 测试 代码 ， 周 期 时 间 (cycle time) 会 变 长 ， 因 为 服务 的 拥有 者 实现 功能 需要 等 待 测 
试 团队 来 写 端 到 端 测试 。 因 为 这 些 测试 由 别 的 团队 编写 ， 实 现 服务 的 团队 很 少 参与 ， 所 以 
很 难 了 解 如 何 运 行 和 修复 这 些 测试 。 很 不 幸 ， 这 是 一 个 非常 常见 的 组 织 模式 ， 只 要 团队 没 
有 在 第 一 时 间 测 试 自己 所 写 的 代码 ， 就 会 出 现 很 大 的 问题 。 

在 这 方面 做 到 正确 真 的 很 难 。 我 们 不 想 做 重复 的 工作 ， 也 不 想 过 度 集权 ， 比 如 让 测试 远离 
实现 服务 的 团队 。 我 发 现 最 好 的 平衡 是 共享 端 到 端 测 试 套件 的 代码 权 ， 但 同时 对 测试 套件 
联合 负责 。 团 队 可 以 随意 提交 测试 到 这 个 套件 ， 但 实现 服务 的 团队 必须 全 都 负责 维护 套件 
的 健康 。 如 果 你 想 在 多 个 团队 中 大 范围 地 使 用 端 到 端 测 试 ， 这 种 方法 是 必要 的 ， 然 而 我 看 
到 的 团队 很 少 这 样 做 ， 所 以 存在 的 问题 也 很 多 。 


7.6.2 ”测试 多 长 时 间 
运行 这 些 端 到 端 测 试 需要 很 长 时 间 。 我 见 到 过 至 少 需要 运行 整整 一 天 的 测试 。 在 我 曾经 做 


注 7: Diane Vaughan, The Challenger Launch Decision: Risky Technology, Culture, and Deviance at NASA 
(Chicago: University of Chicago Press, 1996). 
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过 的 一 个 项 目 中 ， 运 行 一 套 完整 的 回归 测试 需要 六 个 星期 !| 实际 上 ， 我 很 少 看 到 团队 精细 
地 管理 端 到 端 测试 套件 、 减 少 重复 覆盖 的 测试 或 花 足 够 的 时 间 让 它们 变 快 。 


运行 缓慢 和 脆弱 性 是 很 大 的 问题 。 一 个 测试 套件 需要 花 整 整 一 天 时 间 来 运行 ， 然 后 经 常 有 
与 功能 破坏 无 关 的 测试 失败 ， 这 就 是 个 灾难 。 即 使 真 的 是 功能 被 破坏 了， 也 需要 花 很 长 时 
间 才 能 发 现 ， 而 此 时 大 家 已 经 开始 转 做 其 他 的 事情 了 ， 切 换 大 脑 的 上 下 文 来 修复 测试 是 很 
痛苦 的 。 


并 行 运行 测试 可 以 改善 缓慢 的 问题 。 可 以 使 用 Selenium Grid 等 工具 来 达到 这 个 效果 。 然 而 
这 种 方法 并 不 能 代替 去 真正 了 解 什 么 需要 被 测试 ， 以 及 哪些 不 必要 的 测试 可 以 被 删 掉 。 


删除 测试 往往 令 人 担忧 ， 我 怀疑 这 与 想 要 移 除 机 场 的 某 些 安保 措施 有 共通 点 。 无 论 安保 措 
施 多 么 无 效 ， 当 你 想 要 移 除 它 们 时 ， 人 们 都 会 下 意识 地 认为 这 是 无 视 人 们 的 安全 ， 或 想 要 
帮助 已 怖 分 子 。 很 难 在 增加 的 价值 和 承受 的 负担 之 间 寻 求 平 衡 。 这 是 一 个 困难 的 风险 / 回 
报 权衡 。 当 你 删除 一 个 测试 时 ， 会 有 人 感谢 你 吗 ? 也 许 吧 。 不 过 ， 如 果 因 为 你 删除 的 测试 
而 漏 掉 一 个 缺陷 ， 你 肯定 会 被 指责 。 然 而 在 处 理 覆 盖 范 围 广 的 测试 套件 时 ， 删 除 测试 是 非 
党 有 用 的 。 如 果 相 同 的 特性 在 20 个 不 同 的 测试 中 被 覆盖 ， 而 运行 这 些 测 试 需要 10 分 钟 ， 
也 许 我 们 可 以 删 掉 其 中 的 一 半 。 如 果 要 这 样 做 ， 你 需要 更 好 地 理解 风险 ， 而 这 刚好 是 人 类 
所 不 擅长 的 。 结 果 就 是 ， 你 很 少 能 见 到 有 人 能 够 精细 地 对 大 范围 、 高 负担 的 测试 进行 管理 
和 维护 。 希 望 它 发 生 与 真正 让 它 发 生 是 不 一 样 的 。 


7.6.3 ”大量 的 堆积 

端 到 端 测 试 的 反馈 周期 过 长 ， 不 仅 会 影响 开发 人 员 的 生产 效率 ， 同 时 任何 失败 的 修复 周期 
也 都 会 变 长 ， 这 也 就 不 可 避免 地 减少 了 端 到 端 测试 通过 的 次 数 。 如 果 只 有 在 所 有 测试 通过 
的 前 提 下 才能 部 署 软 件 (你 应 该 这 么 做 ) ， 那 么 服务 被 部 署 的 次 数 也 会 减少 。 


这 可 能 会 导致 大 量 的 堆积 。 在 修复 失败 的 端 到 端 测 试 的 同时 ， 上 游 团队 一 直 在 提交 更 多 的 
变更 。 结 果 是 ， 除 了 使 修复 构建 更 加 困难 外 ， 要 部 署 的 变更 内 容 也 多 了 。 解 决 这 个 问题 的 
一 个 方法 是 ， 端 到 端 测试 失败 后 禁止 提交 代码 ， 但 考虑 到 测试 套件 的 运行 时 间 过 长 ， 这 个 
要 求 通常 是 不 切实 际 的。 试想 一 下 这 样 的 命令 :“ 你 们 30 个 开发 人 员 在 这 个 耗 时 7 小 时 的 
构建 修复 之 前 不 准 提交 代码 ! ” 

部 署 的 变更 内 容 越 多 ， 发 布 的 风险 就 会 越 高 ， 我 们 就 越 有 可 能 破坏 一 些 功 能 。 保 障 频繁 发 
布 软件 的 关键 是 基于 这 样 的 一 个 想法 : 尽 可 能 频繁 地 发 布 小 范围 的 改变 。 


7.6.4 元 版 本 
在 端 到 端 测 试 阶段 ， 人 们 很 容易 有 这 样 的 想法 : 我 知道 所 有 服务 在 这 些 版 本 下 能 够 一 起 工 
作 ， 为 什么 不 一 起 部 署 它们 呢 ? 这 个 对 话 很 快 会 演化 成 : 为 什么 不 给 整个 系统 使 用 同一 个 





版 本 号 呢 ? 引用 Brandon Bryars (http://martinfowler.com/articles/enterpriseREST.html) 的 话 : 
“现在 2.1.0 有 问题 了 。” 


为 应 用 于 多 个 服务 上 的 修改 使 用 相同 的 版 本 ， 会 使 得 我 们 很 快 接受 这 样 的 理念 : 同时 修改 
和 部 署 多 个 服务 是 可 以 接受 的 。 这 个 成 了 常态 ， 成 了 正常 的 情况 。 而 这 样 做 后 ， 我 们 就 会 
丢弃 微服 务 的 主要 优势 之 一 : 独立 于 其 他 服务 单独 部 署 一 个 服务 的 能 力 。 


把 多 个 服务 一 起 进行 部 署 经 常会 导致 服务 的 耦合 。 不 用 很 长 时 间 ， 本 来 分 离 得 很 好 的 服务 
就 会 与 其 他 服务 纠缠 得 越 来 越 紧 密 ， 而 你 可 能 从 未 注意 到 ， 因 为 从 未 试图 单独 部 署 它们 。 
最 终 ， 系 统 杂 乱 无 序 ， 你 必须 同时 部 署 多 个 服务 。 正 如 我 们 前 面 所 讨论 的 ， 这 种 耦合 会 使 
我 们 处 于 比 使 用 一 个 单 块 应 用 还 要 糟糕 的 地 步 。 


这 情况 太 糟糕 了 。 


ey + 一 上 已 
7.7 测试 场景 ， 而 不 是 故事 
尽管 有 如 上 所 述 的 缺点 ， 但 对 许多 用 户 来 说 ， 覆 盖 一 两 个 服务 的 端 到 端 测 试 还 是 可 管理 
的 ， 也 是 有 意义 的 。 但 覆盖 3 个 、4 个 、10- 个 或 20 个 服务 的 测试 怎么 办 ? 不 用 多 长 时 间 ， 
这 些 测 试 套件 便 会 变 得 非常 腔 肿 ， 而 在 最 坏 的 情况 下 ， 这 个 测试 场景 甚至 可 能 会 出 现 第 卡 
儿 积 式 的 爆炸 。 


如 果 我 们 掉 进 陷 进 ， 为 每 一 个 新 添加 的 功能 增加 一 个 新 的 端 到 端 测试 ， 那 么 这 种 情况 会 加 
剧 恶 化 。 当 你 给 我 展示 每 实现 一 个 新 的 故事 便 添 加 一 个 新 的 端 到 端 测试 的 代码 库 时 ， 我 将 
向 你 展示 一 个 腔 肿 的 测试 套件 、 很 长 的 反馈 周期 和 巨大 的 重 倒 测试 覆盖 率 。 


解决 这 个 问题 的 最 佳 方法 是 ， 把 测试 整个 系统 的 重心 放 到 少量 核心 的 场景 上 来 。 把 任何 在 
这 些 核 心 场景 之 外 的 功能 放 在 相互 隔离 的 服务 测试 中 和 覆盖。 团队 之 间 需 要 就 这 些 核心 场景 
达成 一 致 ， 并 共同 拥有 。 对 于 音乐 商店 来 说 ， 我 们 可 能 会 专注 于 像 购买 CD、 退货 或 创建 
一 个 客户 等 高 价值 的 交互 ， 它 们 的 数量 应 该 很 少 。 


通过 专注 于 少量 (“少量 ”的 意思 是 即使 对 于 一 个 复杂 系统 来 说 ， 也 应 该 是 非常 低 的 两 位 
数 ) 的 测试 ， 我 们 可 以 缓解 端 到 端 测试 的 缺点 ， 但 并 不 能 避免 所 有 的 缺点 。 还 有 更 好 的 方 
法 吗 ? 


7.8 ”拯救 消费 者 驱动 的 测试 
使 用 之 前 所 提 到 的 端 到 端 测 试 ， 我 们 试图 解决 的 关键 问题 是 什么 ?是 试图 确保 部 署 新 的 服 


务 到 生产 环境 后 ， 变 更 不 会 破坏 新 服务 的 消费 者 。 有 一 种 不 需要 使 用 真正 的 消费 者 也 能 达 
到 同样 目的 的 方式 ， 它 就 是 CDC (Consumer-Driven Contract， 消 费 者 驱动 的 契约 )。 


当 使 用 CDC 时 ， 我 们 会 定义 服务 (或 生产 者 ) 的 消费 者 的 期 望 。 这 些 期 望 最 终 会 变 成 对 
生产 者 运行 的 测试 代码 。 如 果 使 用 得 当 ， 这 些 CDC 应 该 成 为 生产 者 CI 流水 线 的 一 部 分 ， 
这 样 可 以 确保 ， 如 果 这 些 契 约 被 破坏 了 的 话 ， 生 产 者 就 无 法 部 署 。 更 重要 的 是 ， 从 测试 反 
馈 周 期 的 角度 来 看 ， 因 为 只 需 针 对 生产 者 运行 这 些 CDC 测试 ， 所 以 它 比 要 解决 同样 问题 
的 端 到 端 测试 更 快 ， 也 更 可 靠 。 


证 我 们 再 看 一 下 客户 服务 的 这 个 例子 。 客 户 服务 有 两 个 相互 独立 的 消费 者 : 帮助 台 和 网 络 
商店 。 这 两 个 消费 者 都 有 对 客户 服务 的 某 些 期 望 。 在 这 个 例子 中 ， 我 们 将 创建 两 个 测试 集 
合 ， 每 个 集合 分 别 体现 帮助 台 和 网 络 商店 对 客户 服务 的 使 用 方式 。 一 个 好 的 实践 是 ， 生 产 
者 和 消费 者 团队 协作 来 写 这 部 分 测试 ， 所 以 ， 帮 助 台 和 网 络 商 店 的 团队 成 员 可 以 跟 客户 服 
务 的 团队 成 员 结 对 来 编写 这 些 测 试 。 


因为 这 些 CDC 是 对 客户 服务 如 何 工作 的 期 望 ， 所 以 如 图 7-9 所 示 ， 客 户 服务 本 身 的 所 有 下 
游 依 赖 都 可 以 使 用 打桩 。 从 测试 范围 的 角度 来 看 ， 如 图 7-10 所 示 ， 它 们 与 测试 金字 塔 中 的 
服务 测试 处 在 同一 层 ， 但 侧重 点 却 非常 不 同 。 这 些 测 试 侧重 在 消费 者 如 何 使 用 服务 ， 测 试 
失败 的 解决 方式 与 服务 测试 相 比 会 有 很 大 的 不 同 。 如 果 在 客户 服务 的 构建 过 程 中 一 个 CDC 
失败 了 ， 消 费 者 很 明显 将 会 受到 影响 。 此 时 你 可 以 选择 修复 这 个 问题 ， 或 者 如 我 们 在 第 4 
章 中 所 提 到 的 ， 启 动 一 个 引入 破坏 性 变化 的 讨论 。 所 以 通过 CDC， 无 需 使 用 时 间 可 能 很 长 
的 端 到 端 测试 ， 我 们 就 可 以 在 进入 生产 环境 之 前 发 现 破坏 性 变化 。 





帮助 台 CDC 
测试 范围 








打桩 的 外 部 合作 者 











图 7-9: 客户 服务 的 消费 者 驱动 的 测试 
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范围 更 大 







更 有 信心 
外 1 
二 
! 1 少量 的 场景 测试 
1 
| 
| l 服务 和 消费 者 单独 的 服务 范围 ， 
1 1 驱动 的 测试 所 有 的 外 部 合作 者 
! 1 都 被 打桩 或 者 mock 
1 1 
| ; 单元 测试 单独 的 方法 或 函数 
1 
更 快 
隔离 得 更 好 











7-10: 把 消费 者 契约 的 测试 集成 到 测试 金字 塔 


7.8.1 Pact 


Pact (https://github.com/realestate-com-au/pact) 是 一 个 消费 者 驱动 的 测试 工具 ， 最 初 是 在 开 
发 RealEstate.com.au 的 过 程 中 创建 的 ， 现 在 已 经 开源 ， 功 能 大 部 分 是 由 Beth Skurrie 组 织 
开发 的 。 该 工具 最 初 是 使 用 Ruby 语言 ， 现 在 支持 包括 JVM 和 .NET 的 版 本 。 


Pact 的 工作 方式 非常 有 趣 ， 如 图 7-11 所 示 。 开 始 时 ， 消 费 者 使 用 Ruby DSL 来 定义 生产 
者 的 期 望 。 然 后 启动 一 个 本 地 mock 服务 器 ， 并 对 其 运行 期 望 来 生成 Pact 规范 文件 。Pact 
规范 文件 是 一 个 标准 的 JSON 规范 ， 所 以 事实 上 ， 你 可 以 手写 该 规范 ， 但 使 用 语言 支持 的 
API 来 生成 该 规范 显然 要 容易 得 多 。 同 时 ， 它 还 能 提供 给 你 一 个 mock 服务 器， 以 后 可 用 
来 独立 地 测试 消费 者 。 




















7-11: 概述 Pact 如 何 实现 消费 者 驱动 的 测试 
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在 生产 者 这 边 ， 你 可 以 使 用 JSON Pact 规范 来 驱动 对 生产 者 API 的 调用 ， 然 后 验证 响应 以 
测试 消费 者 的 规范 是 否 被 满足 。 因 此 生产 者 代码 库 需 要 访问 Pact 文件 。 正 如 我 们 在 第 6 章 
所 讨论 的 ， 我 们 期 望 消费 者 和 生产 者 是 异 构 的 ， 所 以 与 语言 无 关 的 JSON 规范 是 一 个 非常 
好 的 选择 。 这 意味 着 ， 你 可 以 使 用 Ruby 的 客户 端 来 生成 消费 者 规范 ， 然 后 在 Pact 的 JVM 
版 本 上 用 该 规范 来 验证 一 个 Java 的 生产 者 。 


Pact 的 JSON 规范 是 由 消费 者 生成 的 ， 该 规范 需要 成 为 一 个 生产 者 可 访问 的 构建 物 。 你 可 
以 把 它 存储 在 CVCD 工具 的 构建 物 仓库 中 ， 或 者 使 用 Pact Broker，Pact Broker 允许 你 存 
储 Pact 规范 的 多 个 版 本 。 这 就 允许 你 针对 消费 者 的 多 个 不 同 版 本 运行 消费 者 驱动 的 契约 测 
试 。 比 如 说 ， 假 如 你 想 测 在 生产 环境 上 的 消费 者 ， 也 想 测 开发 中 的 消费 者 的 最 新 版 本 ， 这 
个 功能 就 会 很 有 用 。 


容易 让 人 混淆 的 是 ，ThoughtWorks 有 一 个 叫 作 Pacto (https://github.com/thoughtworks/ 
pacto) 的 开源 项 目 ， 它 也 是 一 个 用 于 消费 者 驱动 测试 的 Ruby 工具 ， 它 可 以 通过 记录 消 
费 者 和 服务 之 间 的 交互 生成 规范 。 这 使 得 为 现 有 服务 编写 消费 者 的 契约 相当 容易 。 通 过 
Pacto 生成 的 这 些 规范 或 多 或 少 是 静态 的 ， 而 在 使 用 Pact 时 ， 消 费 者 的 每 次 构建 都 能 生成 
新 的 规范 。 事 实 上 ， 你 甚至 可 以 为 未 实现 的 生产 者 定义 预期 规范 ， 这 可 以 成 为 仍 在 (或 沿 
未 ) 开发 的 生产 服务 工作 流 的 一 部 分 。 


7.8.2 ”关于 沟通 

在 敏捷 中 ， 故 事 通常 被 认为 是 一 种 促进 沟通 的 方式 。CDC 也 起 到 类 似 的 作用 。 它 们 可 以 
推动 关于 如 何 编写 一 组 服务 的 API 的 讨论 ， 当 其 被 破坏 时 也 可 以 触发 API 该 如 何 演 进 的 
讨论 。 


重要 的 是 ，CDC 需要 消费 者 和 生产 服务 之 间 具 有 良好 的 沟通 和 信任 。 如 果 双 方 都 在 同一 
个 团队 (或 就 是 同一 个 人 ! )， 那 么 这 应 该 不 难 。 然 而 ， 如 果 你 消费 的 服务 由 第 三 方 提供 ， 
那么 CDC 可 能 不 适用 ， 因 为 你 们 可 能 缺乏 充分 的 沟通 及 信任 。 在 这 种 情况 下 ， 对 有 可 能 
出 错 的 组 件 不 得 不 使 用 有 限 的 大 范围 的 端 到 端 测 试 。 换 一 个 场景 ， 如 果 是 为 成 千 上 万 的 潜 
在 消费 者 创建 API (比如 一 个 公开 可 用 的 Web 服务 的 API) ， 你 可 能 不 得 不 自己 扮演 消费 
者 (或 者 说 一 部 分 消费 者 ) 的 角色 来 定义 这 些 测试 。 破 坏 大 量 的 外 部 消费 者 是 非常 糟糕 的 
事情 ， 这 种 情况 下 CDC 就 显得 尤为 重要 ! 


7.9 还 应 该 使 用 端 到 端 测试 吗 


本 章 之 前 的 内 容 详细 地 描述 了 端 到 端 测试 的 大 量 缺 点 ， 而 随 着 测试 覆盖 的 服务 数量 的 增 
加 ， 这 些 缺 点 会 更 加 上 旺 显 。 一 段 时 间 以 来 ,通过 跟 实施 大 规模 微服 务 的 人 一 直 保 持 交 流 ， 
我 意识 到 随 着 时 间 的 推移 ， 大 部 分 人 更 喜欢 使 用 类 似 CDC 的 工具 和 更 好 的 监控 来 代替 端 
到 端 测试 。 但 这 并 不 意味 着 端 到 端 测试 应 该 被 全 部 扔 掉 。 他 们 会 在 使 用 一 种 叫 作 语义 监控 
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(semantic monitoring) 的 技术 来 监控 生产 系统 时 ， 用 到 端 到 端 场景 测试 ， 我 们 在 第 8 章 会 
讨论 更 多 这 方面 的 内 容 。 


可 以 把 运行 端 到 端 测 试 当 作 把 服务 部 署 到 生产 环境 的 辅助 轮 。 当 你 正在 学 习 使 用 CDC 及 
提高 生产 环境 的 监控 和 部 署 技术 时 ， 这 些 端 到 端 测试 能 形成 一 个 有 用 的 安全 网 ， 你 可 以 认 
为 这 是 在 周期 时 间 和 低 风险 之 间 做 取舍 。 不 过 在 改善 其 他 方面 时 ， 你 可 以 慢 慢 减少 对 端 到 
端 测试 的 依赖 ， 直 至 完全 不 需要 。 


同样 ， 你 可 能 处 在 一 个 对 从 生产 环境 中 学 习 没 什么 兴趣 的 工作 环境 ， 大 家 更 愿意 在 部 署 到 
生产 环境 之 前 ， 尽 可 能 努力 地 消除 所 有 缺陷 ， 即 使 这 意味 着 发 布 软件 需要 更 长 的 时 间 。 你 
要 知道 ， 再 怎么 测试 也 不 可 能 消除 所 有 的 缺陷 ， 所 以 生产 环境 中 有 效 的 监控 和 修复 还 是 有 
必要 的 。 理 解 了 这 一 点 ， 你 就 能 够 理解 从 生产 环境 中 学 习 是 一 个 明智 的 决定 。 


当然 ， 对 你 所 在 组 织 的 风险 ， 你 理解 得 要 比 我 多 很 多 ， 但 在 这 里 我 想 促使 大 家 多 思考 一 
下 ， 有 多 少 端 到 端 测试 是 我 们 真正 需要 的 。 


7.10 部 署 后 再 测试 

大 多 数 测试 会 在 系统 部 署 到 生产 环境 之 前 完成 。 我 们 通过 测试 定义 一 系 列 的 模型 ， 希 望 证 
明 在 功能 需求 和 非 功能 需求 方面 ， 系 统 的 工作 方式 和 行为 都 符合 预期 。 但 如 果 我 们 的 模型 
并 不 完美 ， 那 么 系统 在 面 对 愤 怒 的 使 用 者 时 就 会 出 现 问题 。 缺 陷 会 汐 进 生产 环境 ， 新 的 失 
效 模式 会 出 现 ， 用 户 也 会 以 我 们 意 想不到 的 方式 来 使 用 系统 。 


我 们 对 此 通常 的 反应 是 ， 定 义 更 多 的 测试 来 改进 我 们 的 模型 ， 以 便 将 来 尽早 捕获 更 多 的 问 
题 ， 从 而 减少 发 生 在 生产 环境 中 缺陷 的 次 数 。 然 而 我 们 必须 承认 ， 使 用 这 种 方法 得 到 的 收 
益 会 逐渐 减少 。 仅 仅 依靠 部 置 之 前 进行 的 测试 ， 我 们 不 可 能 把 缺陷 率 降 为 零 。 


7.10.1 区 分 部 署 和 上 线 


测试 的 方法 。 如 果 可 以 部 署 软件 到 生产 环境 ， 在 有 真正 生产 负载 (production load) 之 前 运 
行 测试 ， 我 们 可 以 发 现 特定 环境 中 的 问题 。 一 个 常见 的 例子 是 ， 用 来 验证 部 署 后 的 系统 是 
否 正常 工作 的 、 针 对 新 部 署 软件 的 一 系列 的 冒 烟 测试 套件 。 这 些 测 试 帮助 我 们 识别 与 环境 
有 关 的 任何 问题 。 如 果 你 能 够 使 用 一 条 命令 来 部 署 任何 给 定 的 微服 务 (应 该 这 么 做 )， 应 
该 把 自动 运行 冒 烟 济 试 也 加 到 这 条 命令 中 。 


男 一 个 例子 是 所 谓 的 蓝 / 绿 部 署 。 使 用 蓝 / 绿 部 署 时 ， 我 们 会 部 署 两 份 软件 ， 但 只 有 一 个 
接受 真正 的 请 求 。 


让 我 们 考虑 一 个 简单 的 例子 ， 如 图 7-12 所 示 。 在 生产 环境 中 ， 我 们 使 用 客户 服务 的 v123 
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版 本 。 我 们 想 要 部 署 一 个 新 版 本 v456。v123 正常 工作 的 同时 ， 我 们 部 署 v456 版 本 ， 但 先 
不 直接 接受 请 求 。 相 反 ， 我 们 先 对 新 部 署 的 版 本 运行 一 些 测 试 。 等 测试 没有 问题 后 ， 我 们 
再 切换 生产 负荷 到 新 部 署 的 v456 版 本 的 客户 服务 。 通 常情 况 下 ， 我 们 会 保留 旧版 本 一 小 
段 时 间 ， 这 样 如 果 我 们 发 现任 何 错误 ， 能 够 快速 恢复 到 旧 的 版 本 。 











生产 负载 生产 负载 生产 负载 
\ 冒 烟 测试 \ 
1. 部 署 新 版 本 2. 运行 冒 烟 测试 3. 切换 流量 








图 7-12: 使 用 蓝 / 绿 部 署 区 分 部 署 和 上 线 


实施 蓝 / 绿 部 署 有 几 个 前 提 条 件 。 首 先 ， 你 需要 能 够 切换 生产 流量 到 不 同 的 主机 (或 主机 
集群 ) 上 。 切 换 可 以 通过 改变 DNS 条 目 ， 或 更 改 负载 均衡 的 配置 。 你 还 需要 提供 足够 多 
的 主机 ， 以 支持 并 行 运 行 两 个 版 本 的 微服 务 。 如 果 你 正在 使 用 一 个 弹性 云 提供 商 ， 这 个 要 
求 对 你 来 说 可 能 很 简单 。 使 用 蓝 / 绿 部 署 可 以 降低 风险 ， 也 让 你 有 能 力 在 遇 到 问题 时 尽快 
恢复 。 如 果 做 得 足够 好 ， 整 个 过 程 可 以 完全 自动 化 ， 在 无 需 人 工 干预 的 情况 下 完整 地 部 署 
或 恢复 。 


保持 旧版 本 运行 ， 除 了 给 予 我 们 在 切换 生产 流量 前 可 以 测试 服务 这 个 好 处 外 ， 还 可 以 大 幅 
度 地 减少 发 布 软件 所 需要 的 停机 时 间 。 使 用 某 些 生产 流量 重 定向 的 机 制 时 ， 我 们 甚至 可 以 
做 到 在 客户 无 感知 的 情况 下 进行 版 本 切换 , 达到 零 宕 机 部 署 。 


还 有 一 种 方式 值得 我 们 详细 讨论 一 下 ， 它 有 时 会 与 蓝 / 绿 部 署 相 混淆 ， 因 为 它 会 使 用 一 些 
类 似 的 实现 技术 。 这 种 方式 被 称 为 金 丝 稚 发 布 (canary releasing ) 。 


7.10.2 金 丝 省 发 布 


金 丝 淮 发 布 是 指 通过 将 部 分 生产 流量 引流 到 新 部 署 的 系统 ， 来 验证 系统 是 否 按 预期 执行 。 
“ 按 预期 执行 ”可 以 涵盖 很 多 内 容 ， 包 括 功 能 性 的 和 非 功 能 性 的 。 例 如 ， 我 们 可 以 验证 新 
部 署 服务 的 请 求 响应 时 间 是 否 在 500 毫秒 以 内 ， 或 者 查看 新 服务 和 旧 服 务 是 否 有 相同 的 错 
误 率 比 例 (proportional error rate)。 其 至 更 进一步 ， 如 果 我 们 要 发 布 一 个 新 版 本 的 推荐 服 
务 ， 可 以 同时 运行 两 个 版 本 ， 然 后 看 看 新 版 本 的 推荐 服务 是 否 能 够 达到 预期 的 销售 量 ， 以 
确保 我 们 没有 发 布 一 个 次 优 算 法 的 服务 。 如 果 新 版 本 没有 达到 预期 ， 我 们 可 以 迅速 恢复 到 
旧版 本 。 如 果 达 到 了 预期 ， 我 们 可 以 引导 更 多 的 流量 到 新 版 本 。 金 丝 汰 发 布 与 蓝 / 绿 发 布 
的 不 同 之 处 在 于 ， 新 旧版 本 共存 的 时 间 更 长 ， 而 且 经 常会 调整 流量 。 
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Netflix 广泛 使 用 这 种 方法 。 发 布 前 会 部 署 新 的 服务 版 本 ， 同 时 部 署 一 个 与 生产 环境 相同 版 
本 的 作为 基线 。 然 后 ，Netflix 会 在 几 个 小 时 内 ， 引 导 一 小 部 分 生产 流量 到 新 版 本 和 基线 
上 ， 同 时 为 两 个 计 分 。 如 果 金 丝 稚 的 分 数 高 于 基线 的 分 数 ，Netflix 才 会 全 面部 署 新 版 本 到 
生产 环境 。 


当 考虑 使 用 金 丝 誉 发 布 时 ， 你 需要 选择 是 要 引导 部 分 生产 请 求 到 金 丝 甜 ， 还 是 直接 复制 一 
份 生 产 请 求 。 有 些 团队 选择 先 复 制 一 份 生产 请 求 ， 然 后 引导 复制 的 请 求 到 金 丝 稚 。 使 用 这 
种 方法 ， 现 运行 的 生产 版 本 和 金 丝 逢 版 本 可 以 有 相同 的 请 求 ， 只 是 生产 环境 的 请 求 结果 是 
外 部 可 见 的 。 这 方便 大 家 对 新 旧版 本 做 比较 ， 同 时 又 避免 假如 金 丝 逢 失败 ， 影 响 到 客户 的 
请 求 。 不 过 ， 复 制 生产 请 求 的 工作 可 能 会 很 复杂 ， 尤 其 是 在 事件 / 请 求 不 是 徊 等 的 情况 下 。 


金 丝 省 发 布 是 一 种 功能 强大 的 技术 ， 帮 助 大 家 用 实际 的 请 求 来 验证 软件 的 新 版 本 ， 同 时 可 
能 推出 一 个 精 糕 的 新 版 本 ， 提 供 工具 来 帮助 控制 风险 。 不 过 ， 它 也 确实 比 蓝 / 绿 部 署 需要 
更 复杂 的 配置 和 更 多 的 思考 。 你 可 以 比 蓝 / 绿 部 署 共存 多 版 本 服务 的 时 间 更 长 ， 不 过 也 会 
比 蓝 / 绿 部 署 占用 更 多 ， 时 间 更 长 的 硬件 资产。 你 还 需要 更 复杂 的 请 求 路 由 ， 因 为 为 了 对 
发 布 工作 更 有 信心 ， 你 可 能 需要 增加 或 减少 请 求 。 不 过 如 果 你 已 经 实现 蓝 / 绿 部 署 ， 那 实 
现金 丝 淮 发 布 需要 的 部 分 构建 块 可 能 已 经 有 了 。 


7.10.3 平均 修复 时 间 胜 过 平均 故障 间隔 时 间 

通过 使 用 蓝 / 绿 部 署 和 金 丝 誉 发 布 技术 ， 我 们 找到 了 方法 ， 在 类 生产 环境 (甚至 就 是 生产 
环境 ) 上 测试 ， 我 们 还 构建 工具 来 帮助 管理 有 可 能 发 生 的 失败 。 使 用 这 些 方法 其 实 是 ， 默 
认 我 们 无 法 在 软件 发 布 之 前 ， 发 现 和 捕获 所 有 的 问题 。 


有 时 花费 相同 的 努力 让 发 布 变更 变 得 更 好 ， 比 添加 更 多 的 自动 化 功能 测试 更 加 有 益 。 在 
Web 操作 的 世界 ， 这 通常 被 称 为 平均 故障 间隔 时 间 (Mean Time Between Failures,， MTBF) 
和 平均 修复 时 间 (Mean Time To Repair，MTTR) 之 间 的 权衡 优化 。 


减少 修复 时 间 的 技术 可 以 简单 到 尽快 回 深 加 上 良好 的 监控 (在 第 8 章 我 们 将 讨论 )， 类 似 
蓝 / 绿 部 署 。 如 果 我 们 能 早点 发 现 生 产 中 的 问题 ， 尽 快 回 滚 ， 就 可 以 减少 对 客户 的 影响 。 
我 们 还 可 以 使 用 蓝 / 绿 部 署 技术 ， 部 署 软件 的 一 个 新 版 本 ， 在 生产 环境 对 它 进 行 测 试 之 后 
再 引导 用 户 到 新 版 本 。 


对 于 不 同 的 组 织 ，MTBF 和 MTTR 之 间 的 权衡 会 有 所 不 同 ， 这 取决 于 对 在 生产 环境 中 失败 
带 来 的 影响 的 正确 理解 。 然而 ， 我 看 到 大 多 数 的 组 织 ， 花 费 了 大 量 的 时 间 编 写 功能 测试 套 
件 ， 而 花费 很 少 的 时 间 ， 甚 至 完全 没有 芳 虑 如 何 更 好 地 监控 和 如 何 从 故障 中 恢复 。 因此 ， 
尽管 他 们 可 能 在 部 署 生产 环境 前 发 现 并 消除 了 很 多 缺陷 ， 但 是 也 无 法 保证 能 够 消除 所 有 的 
缺陷 ， 并 且 假 如 有 些 缺 陷 在 生产 环境 中 真 的 出 现 ， 他 们 根本 没有 做 好 任何 应 对 准备 。 


除了 MTBF 和 MTTR 之 外 ， 还 有 别 的 权衡 存在 。 例 如 ， 如 果 你 正 试图 了 解 是 否 有 人 会 真 
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正 使 用 你 的 软件 ， 那 需要 尽快 发 布 软件 ， 这 比 构建 健壮 的 软件 更 有 意义 ， 因 为 可 以 验证 之 
前 的 想法 或 业务 模型 是 否 工作 。 在 上 面 例子 的 情况 下 ， 测 试 可 能 都 是 多 余 的 ， 因 为 不 知道 
你 的 想法 是 否 工作 ， 其 影响 要 远 远大 于 生产 环境 上 的 一 个 缺陷 。 在 这 种 情况 下 ， 在 生产 之 
前 完全 不 测试 是 非常 明智 的 。 


7.11 跨 功 能 的 测试 

本 章 大 部 分 内 容 集中 在 讨论 测试 特定 的 功能 ， 以 及 这 种 功能 测试 在 微服 务 系统 下 有 哪些 不 
同 。 不 过 ， 还 有 一 种 类 型 的 测试 也 是 非常 重要 的 ， 值 得 我 们 在 这 讨论 一 下 。 非 功能 性 需 
求 ， 是 对 系统 展现 的 一 些 特性 的 一 个 总 括 的 术语 ， 这 些 特性 不 能 像 普通 的 特性 那样 简单 实 
现 。 它 包括 以 下 方面 ， 比 如 一 个 网 页 可 接受 的 延迟 时 间 ， 系 统 能 够 支持 的 用 户 数量 ， 用 户 
界面 如 何 让 残疾 人 也 可 以 访问 ， 或 者 如 何 保障 客户 数据 的 安全 。 


非 功 能 性 这 个 术语 一 直 很 困扰 我 。 这 个 术语 所 涵盖 的 一 些 内 容 ， 本 质 上 似乎 也 是 功能 性 的 
啊 ! 我 的 一 个 同事 Sarah Taraporewalla， 使 用 跨 功 能 需求 (Cross-Functional Requirement， 
CFR) 来 替换 非 功能 需求 ， 我 非常 喜欢 这 个 术语 ， 因 为 它 展 现 了 这 样 一 个 事实 ， 这 些 系统 
行为 仅仅 是 许多 横 切 工作 融合 的 结果 。 


如 果 不 是 大 多 数 ， 很 多 的 CFR 只 能 在 生产 环境 测试 。 也 就 是 说 ,我 们 可 以 定义 一 些 测试 策 
略 来 帮助 我 们 看 看 ， 是 否 至 少 是 朝 着 满足 这 些 目标 的 方向 前 进 。 这 些 测 试 归 类 为 属性 测试 
象限 。 性 能 测试 是 其 中 一 个 很 好 的 例子 , 我 们 马上 会 深入 地 讨论 。 


对 于 一 些 CFR， 你 可 能 希望 在 一 个 单独 的 服务 上 跟踪 。 例 如 ， 你 可 能 希望 你 的 支付 服务 的 
持久 性 明显 高 一 些 ， 而 音乐 推荐 服务 则 允许 更 多 的 停机 时 间 ， 因 为 你 知道 ， 即 使 10 分钟 
左右 无 法 推荐 类 似 于 金属 乐队 的 艺术 家 ， 你 的 核心 业务 也 不 会 受 影 响 。 这 些 权衡 最 终 会 对 
你 如 何 设 计 和 演化 系统 有 一 个 比较 大 的 影响 ， 再 强调 一 次 ， 合 适 粒 度 的 微服 务 会 给 你 更 多 
的 机 会 做 这 些 权 衡 。 


CFR 的 测试 也 应 该 遵循 金字 塔 。 一 些 测试 必须 使 用 端 到 端 , 例如 负载 测试 ， 但 其 他 不 需要 。 
例如 ， 一 旦 你 发 现 一 个 端 到 端的 负载 测试 的 性 能 瓶颈 ， 编 写 一 个 小 范围 的 测试 ， 帮 助 你 在 
未 来 发 现 这 个 问题 。 其 他 CFR 的 测试 很 容易 使 用 更 快 的 测试 。 我 记得 在 一 个 项 目 中， 我们 
坚持 确保 HTML 标记 使 用 适当 的 可 访问 性 特性 ， 来 帮助 残疾 人 使 用 我 们 的 网 站 。 检 查 生 成 
的 标记 来 确保 适当 的 特性 ， 不 需要 任何 网 络 的 往返 ， 很 快 就 可 以 完成 。 


考 虚 CFR 时 常 太 迟 了 。 我 强烈 建议 尽早 去 看 CFR， 并 定期 审查 。 
性 能 测试 


性 能 测试 作为 满足 跨 功能 需求 的 一 个 方法 是 值得 明确 说 明 的 。 将 系统 拆 分 为 较 小 的 微服 务 
后 ， 跨 网 络 边界 调用 的 次 数 明显 增加 了 。 之 前 操作 可 能 只 涉及 一 次 的 数据 库 调用 ， 现 在 可 





128 | 第 7 章 


能 涉及 三 四 次 跨 网 络 边界 来 调用 其 他 服务 ,还 有 匹配 数量 的 数据 库 调 用 。 所 有 这 些 调用 都 
可 能 减缓 系统 操作 的 速度 。 因 此 ， 追 踪 延 迟 的 根源 显得 尤为 重要 。 当 有 多 个 同步 的 调用 链 
时 ， 链 的 任何 部 分 变 得 缓慢 ， 整 个 链 都 会 受 影响 ， 最 终 会 对 整体 速度 有 明显 的 影响 。 这 使 
得 用 一 些 方 法 对 微服 务 系统 进行 性 能 测试 ， 比 对 单 块 系统 更 重要 。 通 常 性 能 测试 被 推迟 的 
原因 是 ， 最 初 没有 足够 的 系统 资源 用 于 测试 。 我 理解 这 个 原因 ， 但 通常 性 能 测试 会 一 直 拖 
延 ， 如 果 不 是 直到 上 线 都 没有 发 生 的 话 ， 也 通常 只 在 上 线 前 才 会 发 生 ! 不 要 掉 入 这 个 拖延 
的 陷阱。 


与 功能 测试 类 似 ， 性 能 测试 也 可 以 是 各 种 范围 测试 的 混合 。 你 可 能 决定 想 测 试 单个 独立 服 
务 的 性 能 ， 但 开始 的 时 候 ， 可 以 用 测试 来 检查 系统 中 的 核心 场景 的 性 能 。 你 可 以 简单 地 使 
用 端 到 端 场景 的 测试 ， 然 后 大 量 并 发 运行 。 


为 了 产生 有 价值 的 结果 ， 我 们 经 常 需要 模拟 客户 逐渐 增多 ， 然 后 在 给 定 的 客户 场景 一 起 运 
行 。 这 可 以 帮助 我 们 发 现 ， 调 用 延迟 随 着 负荷 的 增加 如 何 变 化 ， 这 意味 着 性 能 测试 需要 运 
行 一 段 时 间 。 此 外 ， 我 们 希望 性 能 测试 的 环境 与 系统 的 生产 坏 境 尽 可 能 匹配 ， 以 确保 看 到 
的 结果 能 表明 在 生产 系统 也 会 有 同样 的 表现 。 这 意味 着 ， 我 们 需要 一 个 类 似 生产 的 数据 
量 ， 并 需要 更 多 的 机 器 来 匹配 基础 设施 一 一 一 项 蛮 有 挑战 的 任务 。 即 使 我 们 仍 在 纠结 是 否 
让 性 能 测试 的 环境 真正 类 似 于 生产 环境 ， 性 能 测试 对 追踪 性 能 的 瓶颈 仍然 是 有 价值 的 。 只 
是 需要 注意 ， 结 果 可 能 是 假 阴 性 ， 甚 至 更 糟 ， 是 假 阳性 。 


由 于 性 能 测试 运行 的 时 间 长 ， 因 此 在 每 次 构建 的 时 候 都 运行 性 能 测试 并 不 是 可 行 的。 一 个 
常见 的 做 法 是 ， 每 天 运行 一 个 子 集 ， 每 周 运行 一 个 更 大 的 集合 。 不 管 选择 哪 种 方法 ， 我 们 
都 要 确保 尽 可 能 频繁 地 运行 。 越 长 时 间 没 有 运行 性 能 测试 ， 就 越 难 追踪 最 初 引 起 性 能 问题 
的 原因 。 性 能 问题 很 难 解决 ， 因 此 ， 如 果 新 引入 的 问题 可 以 通过 查看 少量 的 提交 来 发 现 ， 
我 们 的 生活 将 会 更 加 轻松 。 


然后 ， 测 试 运行 完 后 一 定 要 确保 看 结果 ! 我 一 直 感 到 很 惊讶 ， 遇 到 的 很 多 团队 花费 很 大 工 
作 量 实现 性 能 测试 ， 但 在 运行 它们 后 却 从 不 查看 结果 。 这 个 原因 通常 是 ， 人 们 不 知道 一 个 
好 的 结果 应 该 是 什么 样 的 。 性 能 测试 需要 有 目标 。 有 了 目标 以 后 ， 可 以 基于 运行 结果 让 构 
建 变 红 或 变 绿 ， 变 红 (失败 ) 的 构建 是 需要 行动 的 一 个 清晰 信号 。 


性 能 测试 需要 与 系统 性 能 的 监控 同时 进行 (在 第 8 章 我 们 将 做 更 多 讨论 )。 理 想 情 况 下 ， 
应 该 在 性 能 测试 环境 下 使 用 与 生产 环境 中 相同 的 可 视 化 工具 ， 这 样 我 们 更 容易 对 两 者 进行 
比较 。 


7.12 小 结 


总 的 来 说 ， 本 章 从 全 局 视角 描述 了 测试 ,希望 对 之 后 如 何 继 续 测试 系统 ， 起 到 一 般 性 的 指 
导 作 用 。 在 此 重申 一 下 本 章 的 要 点 。 
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。 优化 快速 反馈 ， 并 相应 地 使 用 不 同类 型 的 测试 。 

。 尽 可 能 使 用 消费 者 驱动 的 契约 测试 ， 来 替换 端 到 端 测 试 。 

。 使 用 消费 者 驱动 的 契约 测试 ， 提 供 团队 之 间 的 对 话 要 点 。 

。 尝试 理解 投入 更 多 的 努力 测试 与 更 快 地 在 生产 环境 发 现 问题 之 间 的 权衡 (MTBF 与 
MTTR 权衡 的 优化 )。 


如 采 你 有 兴趣 阅读 更 多 关于 测试 的 内 容 ， 我 推荐 由 Lisa Crispin 和 Janet Gregory 写 的 《 敏 
捷 软 件 测试 》 这 本 书 ， 书 中 包括 测试 象限 的 详细 介绍 。 


本 章 主要 聚焦 在 确保 代码 进入 生产 环境 之 前 能 够 工作 ， 但 是 同样 需要 知道 ， 如 何 确 保 我 们 
的 代码 部 署 之 后 也 能 工作 。 下 一 章 ， 我 们 将 看 看 基于 微服 务 的 系统 该 如 何 监 控 。 
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正如 我 之 前 所 展示 的 ， 将 系统 拆 分 成 更 小 的 、 细 粒度 的 微服 务 会 带 来 很 多 好 处 。 然 而 ， 它 
也 增加 了 生产 系统 的 监控 复杂 性 。 在 本 章 中 ， 我 将 带 大 家 看 看 细 粒 度 的 系统 在 系统 监控 和 
定位 问题 上 所 面临 的 挑战 ， 同 时 还 会 介绍 一 些 应 对 方法 ， 让 鱼 和 能 掌 兼 得 ! 


设想 一 下 这 样 的 场景 -个 安静 的 周 五 下 午 ， 团 队 期 待 着 早点 开 溜 去 酒吧 ， 开 始 一 个 远离 
工作 的 周末 。 然 而 ， 突 然 收 到 一 封 邮件 : 网 站 工作 异常 ! Twitter 上 到 处 都 是 关于 贵 公 司 
网 站 出 问题 的 消息 ， 而 你 的 老板 在 旁边 唆 唆 不 休 ， 一 个 安静 的 周末 就 这 么 没 了 。 


你 需要 了 解 的 第 一 件 事情 是 什么 ?问题 到 底 出 在 哪里 ? 


在 单 块 应 用 的 世界 里 ， 我 们 至 少 要 非常 清楚 该 从 哪里 开始 调查 。 网 站 慢 ? 是 单 块 应 用 的 问 
题 。 网 站 有 异常 ? 是 单 块 应 用 的 问题 。CPU 占用 率 100% ?还 是 单 块 应 用 的 问题 。 烧 焦 的 
气味 ?你 懂 的 ， 单 一 的 故障 点 会 极 大 地 简化 对 问题 的 调查 ! 

现在 ， 让 我 们 回 到 基于 微服 务 的 系统 。 我 们 提供 给 用 户 的 功能 ， 是 由 多 个 小 的 服务 组 合 而 
成 的 ， 其 中 一 些 服务 需要 集成 更 多 的 服务 来 完成 功能 。 这 种 方法 有 很 多 优点 (这 很 好 ， 否 
则 这 本 书 岂 不 是 浪费 时 间 ? ) ， 但 在 监控 的 世界 里 ， 我 们 面临 的 是 一 个 更 为 复杂 的 问题 。 
我 们 现在 有 多 个 服务 需要 监控 ， 有 多 个 日 志 需 要 筛选 ， 多 个 地 方 有 可 能 因为 网 络 延迟 而 出 
现 同 题 。 该 如 何 应 对 昵 ?我 们 得 好 好 梳理 一 下 ， 否 则 很 可 能 导致 混乱 ， 成 为 一 团 乱 腑 ,而 
这 是 周 五 下 午 (或 在 任何 时 间 ! ) 我 们 最 不 想 面 对 的 情况 。 


这 里 的 答案 很 简单 : 监控 小 的 服务 ， 然 后 聚合 起 来 看 整体 。 我 们 从 最 简单 的 系统 一 一 一 个 
节点 ， 来 展示 该 如 何 做 。 
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8.1 单一 服务 ， 单 一 服务 器 


图 8-1 展示 了 一 个 非常 简单 的 配置 : 一 台 主 机 ， 运 行 一 个 服务 。 现 在 我 们 需要 对 它 进行 监 
控 ， 这 样 在 出 现 问题 时 就 能 够 及 时 发 现 ， 以 便 对 它 进 行 修复 。 那 么 我 们 要 监控 什么 呢 ? 

















图 8-1: 一 台 主 机 ， 运 行 一 个 服务 


首先 ， 我们 希望 监控 主机 本 身 。CPU、 内 存 等 所 有 这 些 主机 的 数据 都 有 用 。 我 们 想 知道 ， 
系统 健康 的 时 候 它 们 应 该 是 什么 样子 的 ， 这 样 当 它们 超出 边界 值 时 ， 就 可 以 发 出 警告 。 如 
果 我 们 想 运行 自己 的 监控 软件 ， 可 以 使 用 Nagios， 或 者 使 用 像 New Relic 这 样 的 托管 服务 
来 帮助 我 们 监控 主机 。 


接 下 来 ， 我 们 要 查看 服务 器 本 身 的 日 志 。 如 果 用 户 报告 了 一 个 错误 ， 这 些 日 志 应 该 可 以 告 
诉 我 们 ， 在 何 时 何 地 发 生 了 这 个 错误 。 这 个 时 候 ， 对 于 单 台 主 机 来 说 ， 只 需要 登录 到 主机 
上 使 用 命令 行 工具 扫描 日 志 就 可 以 了 。 我 们 甚至 可 以 更 进一步 ， 使 用 Logrotate 帮助 我 们 
移 除 旧 的 日 志 ， 避 免 日 志 占 满 了 磁盘 空间 。 


最 后 ， 我 们 可 能 还 想 要 监控 应 用 程序 本 身 。 最 低 限 度 是 要 监控 服务 的 响应 时 间 。 你 可 以 通 
过 查看 运行 服务 的 Web 服务 器 ， 或 者 服务 本 身 的 日 志 做 到 这 一 点 。 如 果 我 们 想 更 进一步 ， 
可 能 还 需要 追踪 报告 中 错误 出 现 的 次 数 。 


随 着 时 间 的 推移 ， 负 载 增加 ， 我 们 发 现 系 统 需要 扩容 …… 


8.2 单一 服务 ， 多 个 服务 器 


现在 我 们 服务 的 多 个 副本 实例 ， 运 行 在 多 个 独立 的 主机 上 。 如 图 8-2 所 示 ， 通 过 负载 均衡 
分 发 不 同 的 请 求 到 不 同 的 服务 实例 。 事 情 慢 慢 变 得 有 点 棘手 。 我 们 仍然 需要 监控 与 之 前 一 
样 的 内 容 ， 但 为 了 定位 问题 ， 我 们 的 做 法 会 有 所 不 同 。 


当 CPU 占用 率 高 时 ， 如 果 这 个 问题 发 生 在 所 有 的 主机 上 ， 那 么 可 能 是 服务 的 问题 ， 但 如 
果 只 发 生 在 一 台 主 机 上 ， 那 么 可 能 是 主机 本 身 的 问题 ， 也 许 是 一 个 流 良 操 作 进 程 ? 
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图 8-2: 单一 服务 的 实例 运行 在 多 个 主机 上 


在 这 种 情况 下 ， 我 们 依然 想 追 踪 有 关 主 机 的 数据 ， 根 据 它们 来 发 出 警告 。 但 现在 ， 除 了 要 
查看 所 有 主机 的 数据 ， 还 要 查看 单个 主机 自己 的 数据 。 换 句 话说 ， 我 们 既 想 把 数据 聚合 起 
来 ， 又 想 深入 分 析 每 台 主 机 。Nagios 允许 以 这 样 的 方式 组 织 我 们 的 主机 ， 到 目前 为 止 一 切 
还 好 。 类 似 的 方式 也 可 以 满足 我 们 对 应 用 程序 的 监控 。 


接 下 来 就 是 日 志 。 我 们 的 服务 运行 在 多 个 服务 器 上， 登录 到 每 台 服 务 器 查看 日 志 ， 可 能 会 
让 我 们 感到 厌倦 。 如 果 只 有 有 几 个 主机 ， 我 们 还 可 以 使 用 像 ssh-multiplexers 这 样 的 工具 ， 在 
多 个 主机 上 运行 相同 的 命令 。 用 一 个 大 的 显示 屏 ， 和 一 个 grep "Error” app.10g， 我 们 就 
可 以 定位 错误 了 。 


对 于 像 响 应 时 间 这 样 的 监控 ， 我 们 可 以 在 负载 均衡 器 中 进行 追踪 ， 很 容易 就 能 拿 到 聚合 
后 的 数据 。 不 过 负载 均衡 器 本 身 也 需要 监控 ， 如 果 它 的 行为 异常 ， 也 会 导致 问题 。 对 于 
服务 本 身 的 监控 ， 我 们 可 能 更 关心 健康 的 服务 是 什么 样 的 ， 这 样 当 我 们 配置 负载 均衡 器 
的 时 候 ， 就 可 以 从 应 用 程序 中 移 除 不 健康 的 节点 。 希 望 我 们 到 这 里 的 时 候 至 少 有 一 


8.3 多 个 服务 ， 多 个 服务 器 


在 图 8-3 中 ， 事 情 变 得 更 有 趣 。 多 个 服务 合作 为 我 们 的 用 户 提供 功能 ， 这 些 服务 运行 在 多 
个 物理 的 或 虚拟 的 主机 上 。 你 如 何在 多 个 主机 上 的 、 成 千 上 万 行 的 日 志 中 定位 错误 的 原 
因 ? 如 何 确定 是 一 个 服务 器 异常 ， 还 是 一 个 系统 性 的 问题 ? 如 何在 多 个 主机 间 跟 踪 一 个 错 
误 的 调用 链 ， 找 出 引起 这 个 错误 的 原因 ? 


























8-3: 互相 合作 的 多 个 服务 分 布 在 多 台 主 机 上 
答案 是 ， 从 日 志 到 应 用 程序 指标 ， 集 中 收集 和 聚合 尽 可 能 多 的 数据 到 我 们 的 手 上 。 


8.4 目 塌 ， 日 志 ， 更 多 的 日 志 


现在 ， 运行 服 务 的 主机 数量 成 为 一 个 挑战 。 现 在 再 使 用 SSH multiplexing 检索 日 志 ， 已 经 
无 法 缓解 这 个 问题 了， 况且 也 没有 一 个 足够 大 的 屏幕 显示 每 台 主 机 的 终端 。 我 们 希望 用 专 
门 获取 日 志 的 子 系统 来 代替 它 ， 让 日 志 能 够 集中 在 一 起 方便 使 用 。 这 方面 的 一 个 例子 是 
logstash (http:/logstash.net) ， 它 可 以 解析 多 种 日 志文 件 格式 ， 并 将 它们 发 送 给 下 游 系 统 进 
行进 一 步调 查 。 

Kibana (https:Wwww.elastic.co/products/kibana) 是 一 个 基于 ElasticSearch 查看 日 志 的 系统 ， 
如 图 8-4 所 示 。 你 可 以 使 用 查询 语法 来 搜索 日 志 ， 它 允许 在 查询 时 指定 时 间 和 日 期 范围 ， 
或 使 用 正则 表达 式 来 查找 匹配 的 字符 串 。Kibana 甚至 可 以 把 你 发 给 它 的 日 志 生 成 图 表 ， 只 
需 看 一 眼 就 能 知道 已 经 发 生 了 多 少 错误 。 











8-4: 使 用 Kibana 查看 聚合 的 日 志 
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8.5 ”多 个 服务 的 指标 跟踪 


与 查看 不 同 主机 上 的 日 志 遇 到 的 挑战 类 似 ， 我 们 也 需要 寻找 更 好 的 方式 来 收集 和 查看 指 
标 。 当 我 们 观察 一 个 复杂 系统 的 指标 时 ， 很 难 知道 什么 样 是 好 的 。 我 们 的 网 站 每 秒 会 有 大 
约 50 条 4XX 的 HTTP 错误 状态 码 ， 这 是 个 问题 吗 ? 午餐 过 后 ， 产 品目 录 服 务 的 CPU 负载 
增加 了 20% ， 是 有 什么 问题 发 生 了 吗 ? 要 想 知道 什么 时 候 该 紧张 ， 什 么 时 候 该 放松 ， 秘 诀 
是 收集 系统 指标 足够 长 的 时 间 ， 直 到 有 清晰 的 模式 浮现 。 


在 更 复杂 的 环境 中 ， 我 们 会 频繁 地 重建 服务 的 新 实例 ， 所 以 我 们 希望 选择 一 个 系统 能 够 方 
便 地 从 新 的 主机 收集 指标 。 我 们 希望 能 够 看 到 整个 系统 聚合 后 的 指标 (例如 ， 平 均 的 CPU 
负载 )， 但 也 会 想 要 给 定 的 一 些 服务 实例 聚合 后 的 指标 ， 其 至 某 单个 服务 实例 的 指标 。 这 
意味 着 ， 我 们 需要 将 指标 的 元 数据 关联 ， 用 来 帮助 推导 出 这 样 的 结构 . 


Graphite 就 是 一 个 让 上 述 要 求 变 得 很 容易 的 系统 。 它 提供 一 个 非常 简单 的 API， 人 允许 你 
实时 发 送 指标 数据 给 它 。 然 后 你 可 以 通过 查看 这 些 指 标 生 成 的 图 表 和 其 他 展示 方式 来 了 
解 当前 的 情况 。 它 处 理 容量 的 方式 很 有 趣 .。 通 过 有 效 地 配置 ， 它 可 以 减少 旧 指 标的 精 
度 ， 以 确保 容量 不 要 太 大 。 例 如 ， 最 近 的 十 分 钟 ， 每 隔 10 秒 记 录 一 次 主机 CPU 的 指标 ， 
然后 在 过 去 的 一 天 ， 以 分 钟 为 单位 对 数据 进行 聚合 ， 而 在 过 去 的 几 年 ， 减 少 到 以 30 分 钟 
为 单位 进行 聚合 。 通 过 这 种 方式 ， 你 不 需要 大 量 的 存储 空间 ， 就 可 以 保存 很 长 一 段 时 间 
内 的 信息 。 


Graphite 也 人 允许 你 跨 样 本 做 聚合 ， 或 深入 到 某 个 部 分 ， 这 样 就 可 以 查看 整个 系统 、 一 组 服 
务 或 一 个 单独 实例 的 响应 时 间 。 如 果 由 于 一 些 原因 ， 你 不 能 使 用 Graphite， 在 选择 其 他 任 
何 工具 时 ， 要 确保 这 些 工具 具备 跟 Graphite 类 似 的 功能 。 另 外 ， 要 确保 你 可 以 获得 原始 的 
数据 ， 以 便 在 需要 之 时 生成 自己 的 报告 或 仪表 盘 。 


了 解 趋势 另 一 个 重要 的 好 处 是 帮助 我 们 做 容量 规划 。 我 们 的 系统 到 达 极 限 了 吗 ? 多 久之 后 
需要 更 多 的 主机 ? 在 过 去 ， 当 我 们 还 在 使 用 物理 主机 时 ， 通 常 一 年 才 会 考虑 一 次 这 个 问 
题 。 在 供应 商 提 供 按 需 计 算 的 IaaS (Infrastructure as a Service， 基 础 设施 即 服务 ) 的 新 时 
代 ， 我 们 可 以 在 几 分 钟 内 (如果 不 是 秒 级 的 话 ) 实现 扩容 和 缩 容 。 这 意味 着 ， 如 果 了 解 我 
们 的 使 用 模式 ， 就 可 以 确保 恰好 有 足够 的 基础 设施 来 满足 我 们 的 需求 。 在 跟踪 趋势 和 理解 
应 该 如 何 使 用 这 些 数据 方面 ， 使 用 的 方式 越 智能 ， 我 们 的 系统 就 越 省 钱 ， 而 且 响 应 性 也 就 
越 好 。 


8.6 ”服务 指标 


当 你 在 Linux 机 器 上 安装 collectd 并 让 它 指向 Graphite 时 ， 会 发 现 我 们 运行 的 操作 系统 会 
生成 大 量 的 指标 。 同 样 ， 像 Nginx 或 Varnish 这 样 的 支撑 子 系统 ， 也 会 暴露 很 多 有 用 的 信 
息 ， 例 如 响应 时 间或 缓存 命中 率 。 不 过 ， 我 们 自己 的 服务 呢 ? 





我 强烈 建议 你 公开 自己 服务 的 基本 指标 。 作 为 Web 服务 ， 最 低 限 度 应 该 暴露 如 响应 时 间 和 
错误 率 这 样 的 一 些 指标 。 如 果 你 的 服务 器 前 面 没有 一 个 Web 服务 器 来 帮忙 做 的 话 ， 这 一 点 
就 更 重要 了 。 但 是 你 真 的 应 该 做 得 更 多 。 例 如 ， 账 户 服务 会 想 要 暴露 客户 查看 过 往 订 单 的 
次 数 ， 而 网 络 商店 可 能 希望 知道 过 去 的 一 天 赚 了 多 少 钱 。 


为 什么 我 们 要 关心 这 个 呢 ? 嗯 ， 原因 很 多 。 首 先 ， 有 一 句 老 话 ，80% 的 软件 功能 从 未 使 
用 过 。 我 无 法 评论 这 个 数字 是 否 准确 ， 但 是 作为 一 个 已 在 软件 行业 工作 近 20 年 的 程序 员 ， 
我 知道 自己 花 了 很 多 时 间 在 一 些 从 未 被 真正 使 用 的 功能 上 。 如 有 果 能 知道 这 些 未 被 使 用 的 功 
能 是 什么 ， 不 是 很 好 的 事情 吗 ? 


其 次 ， 可 以 通过 了 解 用 户 如 何 使 用 我 们 的 系统 得 知 如 何 改进 ， 在 这 个 方面 ， 我 们 比 以 往 任 
何 时候 做 得 都 要 好 。 指 标 可 以 反映 出 系统 的 行为 ， 因 此 在 这 个 方面 可 以 帮助 我 们 。 当 我 们 
发 布 网 站 的 一 个 新 版 本 后 ， 发 现在 产品 目录 服务 上 根据 类 型 搜索 的 数量 大 幅 上 升 。 这 是 一 
个 问题 ， 还 是 我 们 的 期 望 ? 


最 后 ， 我 们 永远 无 法 知道 什么 数据 是 有 用 的 ! 很 多 次 ， 直 到 机 会 已 经 错过 很 久 后 ， 我 才 发 
现 如 果 当 时 记录 了 数据 ， 事 情 就 容易 理解 得 多 。 所 以 我 倾向 于 暴露 一 切 数据 ， 然 后 依靠 指 
标 系统 对 它们 进行 处 理 。 


很 多 平台 都 存在 一 些 库 来 帮助 服务 发 送 指标 到 一 个 标准 系统 中 。Codahale 的 Metrics 库 
(http://metrics.codahale.com/) 就 是 这 样 一 个 运行 在 JVM 上 的 库 。 它 允许 你 存储 一 些 指标 ， 
例如 计数 器 、 计 时 器 或 计量 表 (gauge) ; 支持 带 时 间 限 制 的 指标 (这样 你 就 可 以 指定 如 
“过 去 五 分 钟 的 订单 数量 ”这 样 的 指标 ) ; 它 还 为 将 数据 发 送 到 Graphite 和 其 他 汇总 报告 系 
统 提 供 现 成 的 支持 。 


8.7 ”综合 监控 


我 们 可 以 通过 定义 正常 的 CPU 级 别 ， 或 者 可 接受 的 响应 时 间 ， 判 断 一 个 服务 是 否 健康 。 
如 果 我 们 的 监控 系统 监测 到 实际 值 超出 这 些 安全 水 平 ， 就 可 以 触发 警告 。 类 似 像 Nagios 这 
样 的 工具 ， 完 全 有 能 力 做 这 个 。 


然而 ， 在 许多 方面 ， 这 些 测量 结果 离 我 们 真正 关心 的 内 容 仍 有 一 步 之 运 ， 即 系统 是 否 在 正 
常 工作 ? 服务 之 间 的 交互 越 复杂 ， 就 越 难 回答 这 个 问题 。 如 果 我 们 的 监控 系统 能 像 最 终 用 
户 那样 及 时 地 发 现 并 报告 问题 ， 那 该 多 好 ! 


我 第 一 次 做 这 个 尝试 是 在 2005 年 。 当 时 我 是 ThoughtWorks 小 团队 中 的 一 员 ， 该 团队 为 一 
家 投资 银行 构建 系统 。 整 个 交易 日 中 ， 代 表 市 场 变化 的 大 量 事件 涌 入 。 我 们 的 工作 就 是 响 
应 这 些 变化 ， 了 解 它们 对 银行 投资 组 合 的 影响 。 我 们 的 上 线 日 期 相当 紧迫 ， 因 为 目标 是 当 
事件 收 到 后 ， 在 10 秒 时间 内 完成 所 有 的 计算 。 系 统 本 身 大 约 有 五 个 独立 的 服务 ， 其 中 至 
少 有 一 个 运行 在 一 个 计算 网 格 中 ， 这 个 网 格 除 其 他 事情 外 ， 还 会 循环 利用 银行 灾 备 中 心 大 
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约 250 台中 未 被 使 用 的 桌面 主机 的 CPU。 


系统 中 存在 大 量 的 组 件 ， 意 味 着 我 们 会 收集 到 很 多 低层 次 的 指标 ， 它 们 会 带 来 很 大 的 噪 
声 。 我 们 没有 机 会 逐渐 扩展 系统 ， 或 让 系统 运行 儿 个 月 来 理解 什么 样 的 指标 是 好 的 ， 例 如 
CPU 率 或 一 些 单个 组 件 的 延迟 等 。 我 们 的 方法 是 ， 对 下 游 系统 没 有 登记 的 部 分 投资 组 合 ， 
生成 假 的 价格 事件 。 每 一 分 钟 左 右 ，Nagios 执行 一 个 命令 行 任务 ， 插 入 一 个 假 事 件 到 队列 
中 。 我 们 的 系统 会 正常 响应 这 个 事件 并 做 相应 处 理 ， 唯 一 不 同 的 是 结果 仅 用 于 测试 。 如 果 
在 给 定 的 时 间 内 没有 看 到 重新 定价 ，Nagios 会 认为 这 是 一 个 问题 。 


我 们 创建 的 这 个 假 事 件 就 是 一 个 合成 事务 的 例子 。 使 用 此 合成 事务 来 确保 系统 行为 在 语义 
上 的 正确 性 ， 这 也 是 这 种 技术 通常 被 称 为 语义 监控 的 原因 。 


在 实践 中 ， 我 发 现 使 用 这 样 合成 事务 执行 语义 监控 的 方式 ， 比 使 用 低层 指标 的 告警 更 能 表 
明 系 统 的 问题 。 当 然 ， 它 们 不 会 取代 低层 次 的 指标 ， 那 些 细节 有 助 于 我 们 了 解 为 什么 语义 
监测 会 报告 问题 。 


实现 语义 监控 
在 过 去 ， 实 现 语义 监控 是 一 个 相当 困难 的 任务 ,但 现在 这 个 事情 简直 就 是 信和 手 牛 来 ! 你 的 
系统 有 测试 的 ， 对 吧 ? 如 果 没 有 ， 请 阅读 完 第 7 章 再 回来 。 现 在 有 测试 了 吧 ? 很 好 ! 


系统 中 存在 针对 指定 服务 的 端 到 端 测 试 ， 甚 至 是 针对 整个 系统 的 端 到 端 测试 ， 仔 细 看 看 就 
会 发 现 ， 这 些 都 是 实现 语义 监控 所 需要 的 。 而 且 ， 我 们 的 系统 已 经 开放 了 启动 测试 和 查看 
结果 所 需要 的 钧 子 (hook)。 所 以 ， 为 什么 不 在 运行 的 系统 上 运行 这 些 测试 的 子 集 ， 作 为 
系统 语义 监控 的 一 种 方式 呢 ? 


当然 ， 还 有 些 事情 需要 我 们 做 。 首 先 ， 要 非常 小 心地 准备 数据 以 满足 测试 的 要 求 。 我 们 的 
测试 需要 找到 一 个 方法 来 适 配 不 同 的 实时 数据 ， 因 为 这 些 数据 会 随 着 时 间 的 推移 而 改变 ， 
或 者 设置 一 个 不 同 数据 来 源 。 例 如 ， 我 们 可 以 在 生产 环境 上 设置 一 组 假 用 户 和 一 些 已 知 的 
数据 集 。 


同样 ， 我 们 必须 确保 不 会 触发 意料 之 外 的 副作用 。 一 个 朋友 告诉 我 ， 有 一 个 电子 商务 公 
司 不 小 心 在 其 订单 的 生产 系统 上 跑 测 试 ， 直 到 大 量 的 洗衣 机 送 达 总 部 ， 它 才 意 识 到 这 个 
错误 。 


8.8 关联 标识 


最 终 用 户 看 到 的 任何 功能 都 由 大 量 的 服务 配合 提供 ， 一 个 初始 调用 最 终 会 触发 多 个 下 游 的 
服务 调用 。 例 如 ， 考 虑 客户 注册 的 例子 。 客 户 填写 表单 的 所 有 信息 ， 然 后 点 击 提交 。 界 面 
背后 ， 我 们 使 用 支付 服务 检查 信用 卡 信息 的 有 效 性 ， 告 知 邮寄 服务 在 邮局 寄 送 一 个 欢迎 礼 
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包 ， 并 调用 我 们 的 电子 邮件 服务 发 送 欢迎 邮件 。 现 在 ， 如 果 支 付 服务 的 调用 发 生 了 一 个 奇 
怪 的 错误 ， 该 如 何 处 理 呢 ? 我 们 将 在 第 11 章 详 细 讨 论 如 何 处 理 失 败 ， 这 里 先 考虑 诊断 时 
会 遇 到 的 困难 。 


如 果 看 一 下 日 志 ， 就 会 发 现 只 有 支付 服务 注册 了 一 个 错误 。 如 果 我 们 足够 幸运 ， 可 以 找到 
引发 问题 的 请 求 ， 甚 至 可 以 看 看 当时 调用 的 参数 。 但 这 只 是 简单 的 情况 ， 更 为 复杂 的 初始 
请 求 有 可 能 生成 一 个 下 游 的 调用 链 ， 并 且 以 异步 的 方式 处 理 触 发 的 事件 。 我 们 如 何 才 能 重 
建 请 求 流 ， 以 重 现 和 解决 这 个 问题 呢 ? 通常 我 们 需要 在 初始 调用 更 大 的 上 下 文中 看 待 这 个 
错误 ， 换 名 话说， 就 像 查 看 栈 跟踪 那样 ， 我 们 也 想 查看 调用 链 的 上 游 。 


在 这 种 情况 下 ， 一 个 非常 有 用 的 方法 是 使 用 关联 标识 (ID)。 在 触发 第 一 个 调用 时 ， 生 成 
一 个 GUID。 然 后 把 它 传 递 给 所 有 的 后 续 调 用 ， 如 图 8-5 所 示 。 类 似 日 志 级 别 和 日 期 ， 你 
也 可 以 把 关联 标识 以 结构 化 的 方式 写 入 日 志 。 使 用 合适 的 日 志 聚 合 工 具 ， 你 能 够 对 事件 在 
系统 中 触发 的 所 有 调用 进行 跟踪 : 

15-02-2014 16:01:01 Web-Frontend INFO [abc-123] Register 

15-02-2014 16:01:02 RegisterService INFO [abc-123] RegisterCustomer ... 

15-02-2014 16:01:03 PostalSystem INFO [abc-123] SendWelcomePack ... 


15-02-2014 16:01:03 EmailSystem INFO [abc-123] SendWelcomeEmail ... 
15-02-2014 16:01:03 PaymentGateway ERROR [abc-123] ValidatePayment ... 









关联 ID : abc-123 


ID: abc-123 ID: abc123 











8-5: 使 用 关联 标识 来 跟踪 跨 多 个 服务 的 调用 


当然 ， 你 需要 确保 每 个 服务 知道 应 该 传递 关联 标识 。 此 时 你 需要 标准 化 ， 强 制 在 系统 中 执 
行 该 标准 。 一 旦 这 样 做 了 ， 你 就 可 以 创建 工具 来 跟踪 各 种 交互 。 这 样 的 工具 可 以 用 于 跟踪 
事件 风暴 、 不 常 发 生 的 特殊 场景 ， 其 至 识别 出 时 间 过 长 的 事务 ， 因 为 你 能 勾勒 出 整个 级 联 
的 调用 。 


像 Zipkin (http://twitter.github.io/zipkin/) 这 样 的 软件 ， 也 可 以 跨 多 个 系统 边界 跟踪 调用 。 
基于 Google 自己 的 跟踪 系统 Dapper 的 创意 ，Zipkin 可 以 提供 非常 详细 的 服务 间 调 用 的 追 
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踪 信 息 ， 还 有 一 个 界面 帮助 显示 数据 。 我 个 人 觉得 Zipkin 有 点 重量 级 ， 需 要 自 定义 客户 端 
并 且 支 持 收集 系统 。 既 然 因 为 其 他 目的 ， 你 已 经 把 日 志 聚 合 ， 所 以 更 简单 的 方式 应 该 是 重 
用 已 经 收集 的 数据 ， 而 不 是 必须 再 附加 一 个 数据 源 。 也 就 是 说 ， 如 果 你 发 现 需要 一 个 更 先 
进 的 工具 跟踪 服务 间 的 调用 ， 可 能 才 需 要 Zipkin 这 样 的 软件 。 


使 用 关联 标识 时 ， 一 个 现实 的 问题 是 ， 你 常常 直至 问题 出 现 才 知道 需要 它 ， 而 且 只 有 在 开 
始 时 就 存在 关联 标识 才 可 能 诊断 出 问题 ! 这 个 问题 非常 环 手 ， 因 为 在 后 面 很 难 加 装 关联 标 
识 ， 你 需要 以 标准 化 的 方式 处 理 它 们 ， 这 样 才能 够 轻易 重建 调用 链 。 虽 然 开 始 的 时 候 它 似 
平 是 一 些 额外 的 工作 ， 但 我 还 是 强烈 建议 你 尽早 考虑 使 用 它 ， 尤 其 是 如 有 果 你 的 系统 使 用 事 
件 驱 动 的 架构 模式 ， 因 为 这 种 模式 会 导致 一 些 奇怪 的 意外 行为 。 


传递 关联 标识 时 需要 保持 一 致 性 ， 这 是 使 用 共享 的 、 薄 客户 端 库 的 一 个 强烈 的 信号 。 团 队 
达到 一 定 规模 时 ， 很 难保 证 每 个 人 都 以 正确 的 方式 调用 下 游 服务 以 收集 正确 的 数据 。 只 需 
服务 链 中 的 某 个 服务 忘记 传递 关联 标识 ， 你 就 会 丢失 重要 的 信息 。 如 果 你 决定 创建 一 个 内 
部 客户 端 库 来 标准 化 这 样 的 工作 ， 请 确保 它 很 薄 且 不 依赖 提供 的 任何 特定 服务 。 例 如 ， 如 
果 你 正在 使 用 HTTP 作为 通信 协议 ， 只 需 包 装 标准 的 HITP 客户 端 库 ， 添 加 代码 确保 在 
HTTP 头 传递 关联 标识 即 可 。 


8.9 级 联 


级 联 故障 特别 危险 。 想 象 这 样 一 个 情况 ， 我 们 的 音乐 商店 网 站 和 产品 目录 服务 之 间 的 网 
络 连 接 竣 痪 了 ， 服 务 本 身 是 健康 的 ， 但 它们 之 间 无 法 交互 。 如 果 只 查看 某 个 服务 的 健康 
状态 ， 我 们 不 会 知道 已 经 出 问题 了 。 使 用 合成 监控 【( 例 如， 模拟 客户 搜索 一 首 歌 ) 会 将 
问题 暴露 出 来 。 但 为 了 确定 问题 的 原因 ， 我 们 需要 报告 这 一 事实 是 一 个 服务 无 法 访问 另 
一 个 服务 。 


因此 ， 监 控 系 统 之 间 的 集成 点 非常 关键 。 每 个 服务 的 实例 都 应 该 追踪 和 显示 其 下 游 服务 的 
健康 状态 ， 从 数据 库 到 其 他 合作 服务 。 你 也 应 该 将 这 些 信 息 汇 总 ， 以 得 到 一 个 整合 的 画 
面 。 你 会 想 了 解 下 游 服 务 调用 的 响应 时 间 ， 并 检测 是 否 有 错误 。 

你 可 以 使 用 库 实 现 一 个 断路 器 网 络 调 用 ， 以 帮助 你 更 加 优雅 地 处 理 级 联 故障 和 功能 降级 ， 
我 们 在 11 章 将 讨论 更 多 这 方面 的 内 容 。 一 些 库 ， 例 如 JVM 上 的 Hystrix， 便 很 好 地 提供 了 


这 些 监 控 功 能 。 


8.10 ”标准 化 

正如 我 们 前 面 提 过 的 ， 一 个 需要 持续 做 出 的 平衡 ， 是 仅 规范 单个 服务 ， 还 是 规范 整个 系 
统 。 在 我 看 来 ， 监 控 这 个 领域 的 标准 化 是 至 关 重 要 的 。 服 务 之 间 使 用 多 个 接口 ， 以 很 多 不 
同 的 方式 合作 为 用 户 提供 功能 ， 你 需要 以 整体 的 视角 查看 系统 。 





你 应 该 尝试 以 标准 格式 的 方式 记录 日 志 。 你 一 定 想 把 所 有 的 指标 放 在 一 个 地 方 ， 你 可 能 
需要 为 度量 提供 一 个 标准 名 称 的 列表 ， 如 果 一 个 服务 指标 叫 作 ResponseTime， 另 一 个 叫 作 
RspTimesecs， 而 它们 的 意思 是 一 样 的 ， 这 会 非常 邻 人 讨厌 。 


和 以 前 一 样 ， 工 具 在 标准 化 方面 可 以 提供 帮助 。 正 如 我 之 前 说 的 ， 关 键 是 让 做 正确 的 事情 
变 得 容易 ， 所 以 为 什么 不 提供 预 配置 的 虚拟 机 和 镜像， 镜像 内 置 logstash 和 collectd， 还 有 一 
个 公用 的 应 用 程序 库 ， 使 得 与 Graphite 之 间 的 交互 变 得 非常 容易 ? 


8.11 考虑 受众 


我 们 收集 这 些 数据 都 是 为 了 一 个 目的 。 更 具体 地 说 ， 我 们 为 不 同 的 人 收集 这 些 数据 ， 帮 助 
他 们 完成 工作 ， 这些 数 据 会 触发 一 些 事件 。 有 些 数据 会 触发 支持 团队 立即 采取 行动 ， 比 如 
我 们 的 一 个 综合 监控 测试 失败 了 。 其 他 数据 ， 比 如 CPU 负载 在 过 去 一 周 增加 了 2%， 我 们 
在 做 容量 规划 的 时 候 可 能 才 会 对 其 感 兴趣 。 同 样 ， 你 的 老板 可 能 想 立 即 知道 ， 上 次 发 布 后 
收入 下 降 了 25%， 但 可 能 不 需要 知道 ，“Justin Bieber” 搜 索 在 最 近 一 小 时 上 涨 了 5%。 


人 们 现在 希望 看 到 并 立即 处 理 的 数据 ， 与 当 进行 深入 分 析 时 所 需要 的 是 不 同 的 。 因 此 ， 对 
于 查看 这 些 数据 的 不 同类 型 的 人 来 说 ， 需 考虑 以 下 因素 : 


。 他 们 现在 需要 知道 什么 
。 他 们 之 后 想 要 什么 
。 他 们 如 何 消费 数据 


提醒 他 们 现在 需要 知道 的 东西 。 在 房间 的 某 个 角落 放置 一 个 大 显示 屏 来 显示 此 信息 ， 并 使 
得 以 后 需要 做 深入 分 析 数 据 时 ， 他 们 也 能 够 很 方便 地 访问 。 花 时 间 了 解 他 们 想 要 使 用 的 数 
据 。 讨 论 定量 信息 的 图 形 化 显示 所 涉及 的 所 有 细微 差别 已 经 超出 了 本 书 的 范围 ， 一 个 不 错 
的 起 点 是 Stephen Few 的 优秀 图 书 : Information Dashboard Design: Displaying Data for Ata- 


Glance Monitoring。 


8.12 未 来 


在 很 多 组 织 中 ， 我 看 到 指标 被 孤立 到 不 同 的 系统 中 。 如 订单 数量 这 样 的 应 用 程序 级 指标 ， 
只 放 在 Omniture 等 专 有 的 分 析 系 统 上 (通常 只 供 业务 的 重要 部 分 使 用 ), 或 者 进入 可 怕 的 
数据 仓库 ， 然 后 再 也 无 人 问津 。 在 这 类 系统 中 ， 报 告 通常 不 是 实时 的 ， 尽 管 这 种 情况 已 经 
开始 有 所 变化 。 与 此 同时 ， 系 统 指标 ， 如 响应 时 间 、 错 误 率 和 CPU 负载 ， 都 存储 在 运 维 
团队 可 以 访问 的 系统 上 。 通 常 这 些 系统 提供 实时 报告 ， 目 的 是 及 时 触发 行动 。 


过 去 ,我 们 在 一 两 天 后 找 出 关键 业务 指标 是 可 以 接受 的 ， 因 为 通常 我 们 无 法 根据 这 些 数据 
快速 地 做 出 反应 。 不 过 ， 在 当前 的 世界 ， 我 们 中 的 许多 人 每 天 可 以 发 布 多 个 版 本 。 团 队 现 
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在 衡量 的 不 是 他 们 完成 多 少 点 ， 而 是 代码 从 笔记 本 电脑 到 生产 环境 上 需要 多 长 时 间 。 在 这 
种 环境 下 ， 所 有 指标 都 需要 在 我 们 手 上 以 方便 采取 正确 的 行动 。 具 有 讽刺 意味 的 是 ， 存 储 
业务 指标 的 系统 通常 无 法 直接 、 实 时 地 访问 ， 但 存储 运营 指标 的 系统 却 可 以 。 


为 什么 不 能 以 同样 的 方式 处 理 运 营 指 标 和 业务 指标 ? 最终， 两 种 类 型 的 指标 分 解 成 事件 
后 ， 都 说 明 在 X 时 间 点 发 生 了 一 些 事情 。 如 果 我 们 可 以 统一 收集 、 聚 合 及 存储 这 些 事件 的 
系统 ， 使 它们 可 用 于 报告 ， 最 终 会 得 到 一 个 更 简单 的 架构 。 


Riemann (http://riemann.io/) 是 一 个 事件 服务 器 ， 人 允许 高 级 的 聚合 和 事件 路 由 ， 所 以 该 工 
县 可 以 作为 上 述 解决 方案 的 一 部 分 。Suro (https://github.com/Netflix/suro) 是 Netflix 的 数 
据 流水 线 ， 其 解决 的 问题 与 Riemann 类似。Suro 明确 可 以 处 理 两 种 数据 ， 用 户 行为 的 相 
关 指 标 和 更 多 的 运营 数据 (如 应 用 程序 日 志 )。 然 后 这 些 数据 可 以 被 分 发 到 不 同 的 系统 中 ， 
像 Storm 的 实时 分 析 、 离 线 批 处 理 的 Hadoop 或 日 志 分 析 的 Kibana。 


许多 组 织 正 在 朝 一 个 完全 不 同 的 方向 迈进 : 不 再 为 不 同类 型 的 指标 提供 专门 的 工具 链 ， 而 
是 提供 伸缩 性 很 好 的 更 为 通用 的 事件 路 由 系统 。 这 些 系统 能 提供 更 多 的 灵活 性 ， 同 时 还 能 
简化 我 们 的 架构 。 


8.13 ”小 结 
本 章 涵盖 了 很 多 内 容 。 下 面 我 试图 把 本 章 的 内 容 总 结 成 一 些 方便 实施 的 建议 。 
对 每 个 服务 而 言 ， 


。 最 低 限 度 要 跟踪 请 求 响应 时 间 。 做 好 之 后 ， 可 以 开始 跟踪 错误 率 及 应 用 程序 级 的 指标 。 

。 最 低 限 度 要 跟踪 所 有 下 游 服务 的 健康 状态 ， 包 括 下 游 调用 的 响应 时 间 ， 最 好 能 够 跟踪 错 
误 率 。 一 些 像 Hystrix 这 样 的 库 ， 可 以 在 这 方面 提供 帮助 。 

。 标准 化 如 何 收集 指标 以 及 存储 指标 。 

。 如 果 可 能 的 话 ， 以 标准 的 格式 将 日 志 记录 到 一 个 标准 的 位 置 。 如 果 每 个 服务 各 自 使 用 不 
同 的 方式 ， 聚 合 会 非常 痛苦 | 

。 监控 底层 操作 系统 ， 这 样 你 就 可 以 跟踪 流 汇 进程 和 进行 容量 规划 。 


对 系统 而 言 ， 


。 聚合 CPU 之 类 的 主机 层级 的 指标 及 应 用 程序 级 指标 。 

。 确保 你 选用 的 指标 存储 工具 可 以 在 系统 和 服务 级 别 做 聚合 ， 同 时 也 允许 你 查看 单 台 主机 
的 情况 。 

。 确保 指标 存储 工具 允许 你 维护 数据 足够 长 的 时 间 ， 以 了 解 你 的 系统 的 趋势 。 

。 使 用 单个 可 查询 工具 来 对 日 志 进 行 聚 合 和 存储 。 

。 强烈 考虑 标准 化 关联 标识 的 使 用 。 





。 了 解 什么 样 的 情况 需要 行动 ， 并 根据 这 些 信息 构造 相应 的 警报 和 仪表 盘 。 
。 调查 对 各 种 指标 聚合 方式 做 统一 化 的 可 能 性 ， 像 Suro 或 Riemann 这 样 的 工具 可 能 会 对 
你 有 用 。 


我 还 试图 描绘 了 系统 监控 发 展 的 方向 : 从 专门 只 做 一 件 事 的 系统 转向 通用 事件 处 理 系 
统 ， 从 而 可 以 全 面 地 审视 你 的 系统 。 这 是 一 个 令 人 激动 的 新 兴 空 间 ， 虽 然 全 面 讲 解 已 经 
超出 了 本 书 的 范围 ， 但 希望 我 介绍 的 已 足够 你 起 步 。 如 果 你 想 知 道 更 多 ， 我 早期 出 版 的 
Lightweight Systems for Realtime Monitoring 一 书 中 有 一 些 我 的 想法 和 更 详细 的 介绍 。 


在 下 一 章 ， 我 们 将 从 不 同 的 系统 视角 看 看 ， 细 粒度 的 架构 在 安全 方面 独 有 的 优势 和 挑战 。 
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关于 大 型 系统 的 安全 漏洞 导致 数据 暴露 给 各 种 危险 人 物 的 故事 ， 我 们 已 经 听 说 了 太 多 。 最 
近 的 爱德华 斯 诺 登 泄密 事件 ， 更 加 让 我 们 意识 到 公司 持 有 的 用 户 信息 的 价值 ， 以 及 保存 
在 为 客户 构建 的 系统 中 的 数据 的 价值 。 本 章 将 简要 概述 设计 系统 时 ， 在 安全 方面 应 该 考虑 
的 一 些 问题 。 虽 然 无 法 包含 安全 的 方方面面 ， 但 会 列 出 一 些 主要 的 选项 给 你 ， 为 进一步 研 
究 提 供 一 个 很 好 的 起 点 。 


我 们 需要 考虑 ， 在 数据 从 一 个 点 到 另 一 个 点 的 传输 过 程 中 ， 如 何 保护 它们 ， 也 需要 考虑 在 
其 他 情况 下 如 何 进行 保护 。 我 们 需要 考虑 底层 操作 系统 及 网 络 的 安全 。 有 太 多 需要 考虑 的 
点 ， 有 太 多 可 以 做 的 事情 ! 那 到 底 需 要 多 安全 呢 ? 我 们 如 何 知道 什么 是 足够 安全 呢 ? 


我 们 还 需要 考虑 人 的 因素 。 谁 在 使 用 我 们 的 系统 ， 他 又 会 做 些 什 么 ?而 这 又 与 我 们 的 服务 
器 如 何 交 互 有 什么 关系 ? 让 我 们 从 这 里 开始 。 


9.1 身份 验证 和 授权 


当 谈 到 与 我 们 系统 交互 的 人 和 事 时 ， 身 份 验 证 和 授权 是 核心 概念 。 在 安全 领域 中 ， 身 份 验 
证 是 确认 他 是 谁 的 过 程 。 对 于 一 个 人 ， 通 党 通过 用 户 输入 的 用 户 名 和 密码 来 验证 。 我 们 认 
为 只 有 用 户 本 人 才能 够 知道 这 些 信 息 , 因此 输入 这 些 信息 的 人 一 定 是 他 。 当 然 ， 还 存在 其 
他 更 复杂 的 系统 。 我 的 手机 可 以 用 指纹 来 确认 我 是 我 本 人 。 通 常 来 说 ， 当 我 们 抽象 地 讨论 
进行 身份 验证 的 人 或 事 时 ， 我 们 称 之 为 主体 (principal)。 


通过 授权 机 制 ， 可 以 把 主体 映射 到 他 可 以 进行 的 操作 中 。 通 常 ， 当 一 个 主体 通过 身份 验证 
后 ， 我 们 将 获得 关于 他 的 信息 ， 这 些 信息 可 以 帮助 我 们 决定 其 可 以 进行 的 操作 。 例 如 ， 当 
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我 们 知道 他 在 哪个 部 门 或 办 公 室 工作 后 ， 系 统 可 以 通过 这 些 信 息 来 决定 他 能 做 什么 和 不 能 
做 什么 。 


一 般 来 讲 ， 对 于 单一 的 单 块 系统 来 说 ， 应 用 程序 本 身 会 处 理 身份 验证 和 授权 。 例 如 
Django， 一 个 Python 的 Web 框架 ， 提 供 了 现成 的 用 户 管理 功能 。 不 过 ， 在 分 布 式 系统 这 
个 领域 ， 我 们 需要 考虑 更 高 级 的 方案 。 我 们 不 希望 每 个 人 使 用 不 同 的 用 户 名 和 密码 来 登录 
不 同 的 系统 。 我 们 的 目的 是 要 有 一 个 单一 的 标识 且 只 需 进行 一 次 验证 。 


9.1.1 常见 的 单 点 登录 实现 

身份 验证 和 授权 的 一 种 常用 方法 是 ， 使 用 某 种 形式 的 SSO (Single Sign-On， 单 点 登录 ) 解 
决 方案 。 在 企业 级 领域 中 占据 统治 地 位 的 SAML 和 OpenID Connect， 也 提供 了 这 方面 的 
能 力 。 虽 然 术语 略 有 不 同 ， 但 它们 或 多 或 少 使 用 了 相同 的 核心 概念 。 这 里 使 用 的 术语 来 自 
SAML。 


当主 体 试图 访问 一 个 资源 (比如 基于 Web 的 接口 ) 时 ， 他 会 被 定向 到 一 个 身份 提供 者 那里 
进行 身份 验证 。 这 个 身份 提供 者 会 要 求 他 提供 用 户 名 和 密码 ， 或 使 用 更 先进 的 双重 身份 验 
证 。 一 旦 身份 提供 者 确认 主体 已 通过 身份 验证 ， 它 会 发 消息 给 服务 提供 者 ， 让 服务 提供 者 
来 决定 是 否 允 许 他 访问 资源 。 


这 个 身份 提供 者 可 能 是 一 个 外 部 托管 系统 ， 也 可 能 是 你 自己 组 织 内 部 的 系统 。 例 如 ， 谷 歌 
提供 了 一 个 OpenID Connect 身份 提供 者 。 不 过 ， 对 于 企业 来 说 ， 通 常 有 自己 的 身份 提供 
者 ， 它 会 连接 到 公司 的 目录 服务 。 目 录 服 务 可 能 使 用 LDAP (Lightweight Directory Access 
Protocol， 轻 量 级 目录 访问 协议 ) 或 活动 目录 (Active Directory) 。 这 些 系统 允许 你 存储 主 
体 的 信息 ， 例 如 他 们 在 组 织 中 扮演 什么 样 的 角色 。 通 常情 况 下 ， 目 录 服 务 和 身份 提供 者 是 
同一 个 系统 ， 不 过 有 时 也 会 有 所 不 同 ， 但 保持 连接 。 例 如 ，Okta 是 一 个 托管 的 SAML 身 
份 提供 者 ， 它 可 以 处 理 像 双重 身份 验证 这 样 的 任务 ， 但 可 以 连接 到 你 公司 的 目录 服务 ， 将 
其 作为 信息 来 源 。 


SAML 是 一 个 基于 SOAP 的 标准 ， 尽 管 有 库 和 工具 支持 它 ， 但 用 起 来 还 是 相当 复杂 。 基 于 
Google 和 其 他 公司 处 理 SSO 的 方式 ，OpenID Connect 已 经 成 为 了 OAuth 2.0 具体 实现 中 的 
一 个 标准 。 它 使 用 简单 的 REST 调用 ， 因 为 提高 了 其 易 用 性 ， 在 我 看 来 很 有 可 能 进军 企业 
级 应 用 。 现 在 其 最 大 的 障碍 是 缺乏 支持 它 的 身份 提供 者 。 对 于 一 个 面向 公众 的 网 站 ， 你 或 
许可 以 使 用 Google 作为 提供 者 ， 但 对 于 内 部 系统 ， 或 对 于 数据 需要 有 更 多 控制 权 的 系统 
而 言 ， 你 会 希望 有 自己 的 内 部 身份 提供 者 。 在 写本 书 的 时 候 ， 相 比 SAML 丰富 的 选择 ( 包 
括 似 乎 无 处 不 在 的 活动 目录 )，OpenAM 和 Gluu 是 这 个 领域 为 数 不 多 的 两 个 选项 。 除 非 等 
到 现 有 的 身份 提供 者 开始 支持 OpenID Connect， 不 然 它 的 发 展会 仅 限 于 公共 身份 提供 者 这 
种 有 限 的 情况 。 





因此 ， 尽 管 我 认为 OpenID Connect 是 未 来 的 方向 ， 但 很 有 可 能 需要 一 段 时 间 ， 它 才能 被 广 
泛 地 应 用 。 


9.1.2 单 点 登录 网 关 


在 微服 务 系统 中 ， 每 个 服务 可 以 自己 处 理 如 何 重 定向 到 身份 提供 者 ， 并 与 其 进行 握手 。 显 
然 ， 这 意味 着 大 量 的 重复 工作 。 使 用 共享 库 可 以 解决 这 个 问题 ， 但 我 们 必须 小 心地 避免 可 
能 来 自 共 享 代码 的 耦合 。 而 且 如 果 有 多 个 不 同 的 技术 栈 ， 共享 库 也 很 难 提供 帮助 。 


你 可 以 使 用 位 于 服务 和 外 部 世界 之 间 的 网 关 (如 图 9-1 所 示 ) 作为 代理 ， 而 不 是 让 每 个 服 
务 管理 与 身份 提供 者 握手 。 基 本 想法 是 ， 我 们 可 以 集中 处 理 重 定向 用 户 的 行为 ， 并 且 只 在 
一 个 地 方 执行 握手 。 














已 授权 的 调用 
主体 信息 ， 比 如 角色 
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重 定 向 进行 
身份 验证 





提供 凭证 和 角色 
信息 的 唯一 可 靠 
来 源 








图 9-1: 使 用 网 关 实现 单 点 登录 


然而 ， 我 们 仍然 需要 解决 下 游 服 务 如 何 接受 主体 信息 的 问题 ， 例 如 用 户 名 和 角色 。 如 果 你 
使 用 HTTP， 可 以 把 这 些 信息 放 到 HTTP 头 上 。 在 这 方面 ，Shibboleth 这 样 的 工具 可 以 帮助 
你 。 我 见 过 人 们 把 它 和 Apache 一 起 使 用 ， 这 种 方式 能 够 很 好 地 处 理 与 基于 SAML 的 身份 
提供 者 的 集成 。 


另 一 个 问题 是 ， 如 果 我 们 决定 把 身份 认证 的 责任 移 到 网 关 ， 那 么 孤立 地 在 微服 务 中 定位 问 
题 就 变 得 更 难 。 还 记得 在 第 7 章 我 们 探讨 过 的 重 现 类 生产 环境 的 挑战 吗 ? 如 果 选 择 使 用 网 
关 路 由 ， 请 确保 你 的 开发 人 员 不 需要 太 多 的 工作 ， 就 可 以 启动 一 个 网 关 及 其 背后 的 服务 。 


这 种 方法 的 最 后 一 个 问题 是 ， 它 会 带 给 你 一 种 虚假 的 安全 感 。 我 喜欢 深度 防御 的 理念 ， 从 
网 络 边界 ， 到 子 网 ， 到 防火 墙 ， 到 主机 ， 到 操作 系统 ， 再 到 底层 硬件 。 你 需要 在 所 有 这 些 
方面 都 实现 安全 措施 的 能 力 ， 我 们 将 很 快 提 到 其 中 的 一 些 。 我 见 过 有 些 人 把 所 有 的 鸡蛋 都 





放 在 一 个 篮子 里 ， 依 靠 网 关 来 处 理 每 一 步 的 安全 措施 。 我 们 都 知道 当 这 个 点 发 生 故障 后 
会 发 生 什么 …… 


然 ， 你 还 可 以 使 用 这 个 网 关 来 做 其 他 事情 。 例 如 ， 如 果 你 使 用 Apache 的 一 个 实例 运行 
Shibboleth， 也 可 以 在 这 一 级 别 决定 终止 HTTPS， 运 行 入 侵 检 测 ， 等 等 。 不 过 ， 一 定 要 小 
心 。 网 基层 承担 越 来 越 多 的 功能 后 ， 最 终 本 身 会 是 一 个 庞大 的 耦合 点 。 而 且 功 能 越 多 ， 受 
攻击 面 就 越 大 。 


9.1.3 细 粒 度 的 授权 

网 关 可 以 提供 相当 有 效 的 粗 粒度 的 身份 验证 。 例 如 ， 它 可 以 阻止 任何 未 登录 用 户 访问 帮助 
台 应 用 程序 。 假 如 我 们 的 网 关 在 身份 验证 完成 时 能 提取 出 主体 的 属性 ， 则 可 以 据 此 做 出 更 
细致 的 决定 。 例 如 ， 我 们 通常 将 人 放 到 某 些 组 或 分 配 某 些 角色 ， 通 过 使 用 这 些 信息 来 了 解 
他 们 能 做 什么 。 所 以 ， 对 于 帮助 台 应 用 程序 ， 我 们 可 能 只 允许 具有 某 个 特定 的 角色 (例如 
工作 人 员 ) 的 主体 访问 。 不 过 ， 超 出 允许 (或 禁止 ) 的 特定 资源 或 端点 的 访问 部 分 ， 它 们 
可 以 留 给 微服 务 本 身 来 处 理 ， 它 会 对 允许 哪些 操作 做 进一步 的 决定 。 


回 到 我 们 的 帮助 台 应 用 程序 : 我 们 会 允许 任何 员工 查看 任何 信息 和 所 有 细 市 吗 ? 更 可 能 的 
是 ， 工 作 上 会 有 不 同 的 角色 。 例 如 ，CALL_CENTER 组 中 的 主体 可 以 查看 除 付款 细节 外 
所 有 客户 的 信息 。 该 主体 也 可 以 发 起 退 款 ， 但 是 额度 会 受 限 制 。 然 而 ，CALL_CENTER_ 
TEAM_LEADER 角色 的 主体 ， 可 以 进行 更 大 额度 的 退 款 。 


应 该 在 微服 务 内 部 做 这 些 决 定 。 我 见 过 ， 人 们 以 可 怕 的 方式 ， 使 用 身份 提供 者 提供 的 各 种 
属性 ， 比 如 像 CALL_CENTER_50_DOLLAR_REFUND 这 种 非常 细 粒 度 的 角色 ， 将 属于 系 
统 行为 的 某 个 特定 部 分 的 信息 放 到 目录 服务 中 。 这 对 系统 维护 来 说 是 一 场 慎 梦 ， 并 且 很 难 
让 我 们 的 服务 拥有 独立 的 生命 周期 ， 因 为 有 关 服 务 行 为 的 一 部 分 信息 突然 间 被 放置 到 了 别 
的 地 方 ， 其 至 有 可 能 是 由 组 织 中 一 个 不 同 部 分 管理 的 系统 。 


相反 ， 你 应 该 倾向 于 使 用 粗 粒 度 的 角色 ， 围 绕组 织 的 工作 方式 建 模 。 回 到 之 前 的 章节 ， 请 
记 住 ， 我 们 构建 的 软件 要 与 组 织 的 工作 方式 相 匹配 。 所 以 也 请 以 这 种 方式 来 使 用 角色 。 


9.2 ”服务 间 的 身份 验证 和 授权 


到 目前 为 止 ， 我 们 一 直 在 使 用 主体 这 个 术语 ， 用 来 描述 可 以 进行 身份 验证 和 授权 的 任何 
事物 ， 但 我 们 的 例子 都 是 关于 使 用 电脑 的 人 类 。 那 程序 或 其 他 服务 之 间 如 何 进行 身份 验 
证 呢 ? 


9.2.1 在 边界 内 人 允许 一 切 
我 们 的 第 一 个 选项 是 ， 在 边界 内 对 服务 的 任何 调用 都 是 默认 可 信和 的 。 
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取决 于 数据 的 敏感 性 ， 这 种 方式 可 能 没有 问题 。 一 些 组 织 尝试 在 他 们 的 网 络 范 围 内 确保 安 
全 ， 因 此 认为 ， 当 两 个 服务 彼此 访问 时 ， 它 们 不 需要 额外 做 任何 事情 。 然 而 ， 如 果 一 个 攻 
击 者 入 侵 你 的 网 络 ， 你 将 对 典型 的 中 间 人 攻击 基本 没有 任何 防备 。 如 果 攻 击 者 决定 拦截 并 
读 取 你 正在 发 送 的 数据 ， 在 你 不 知情 时 更 改 数据 ， 甚 至 在 某 些 情况 下 假装 是 你 正在 通信 的 
对 象 ， 你 将 不 得 而 知 。 


迄今 为 止 ， 边 界 内 信任 这 种 形式 被 大 多 数组 织 采 用 。 他 们 可 能 决定 在 通信 中 使 用 HITPS， 
但 仅 此 而 已 。 我 可 没 说 这 是 一 件 好 事 ! 对 于 大 多 数 使 用 这 种 模式 的 组 织 来 说 ， 我 担心 隐 式 
信任 模型 并 不 是 一 个 明智 的 决定 ， 而 更 糟糕 的 是 ， 很 多 时 候 人 们 没有 在 一 开始 意识 到 它 的 
风险 。 


9.2.2 HTTP(S) 基 本 身份 验证 


HTTP 基本 身份 验证 ， 人 允许 客户 端 在 标准 的 HTTP 头 中 发 送 用 户 名 和 密码 。 服 务 端 可 以 验 
证 这 些 信息 ， 并 确认 客户 端 是 否 有 权 访 问 服务 。 这 样 做 的 好 处 在 于 ， 这 是 一 种 非常 容易 理 
解 且 得 到 广泛 支持 的 协议 。 问 题 在 于 ， 通过 HTTP 有 很 高 的 风险 ， 因 为 用 户 名 和 密码 并 没 
有 以 安全 的 方式 发 送 。 任 何 中 间 方 都 可 以 看 到 HTTP 头 的 信息 并 读 取 里 面 的 数据 。 因 此 ， 
HTTP 基本 身份 验证 通常 应 该 通过 HTTPS 进行 通信 。 


当 使 用 HTTPS 时 ， 客 户 端 获得 强 有 力 的 保证 ， 它 所 通信 的 服务 端 就 是 客户 端 想 要 通信 的 
服务 端 。 它 给 予 我 们 额外 的 保护 ， 避 免 人 们 窃听 客户 端 和 服务 端 之 间 的 通信 ， 或 自 改 有 效 
负载 。 


服务 端 需要 管理 自己 的 SSL 证 书 ， 当 需要 管理 多 人 台 机 器 时 会 出 现 问题 。 一 些 组 织 自己 承 
担 签发 证 书 的 过 程 ， 这 是 一 个 额外 的 行政 和 运营 负担 。 管 理 这 方面 的 自动 化 工具 远 不 够 成 
熟 ， 使 用 它们 后 你 会 发 现 ， 需 要 自己 处 理 的 事情 就 不 止 证 书签 发 了 。 自 签名 证 书 不 容易 撤 
销 ， 因 此 需要 对 灾难 情景 有 更 多 的 考虑 。 看 看 你 是 否 能 够 避免 自 签名 ， 以 避 开 所 有 的 这 些 
工作 。 


SSL 之 上 的 流量 不 能 被 反 向 代理 服务 器 〈 比 如 Varnish 或 Squid) 所 缓存 ， 这 是 使 用 
HTTPS 的 另 一 个 缺点 。 这 意味 着 ， 如 果 你 需要 缓存 信息 ， 就 不 得 不 在 服务 端 或 客户 端 内 部 
实现 。 你 可 以 在 负载 均衡 中 把 Https 的 请 求 转 成 Http 的 请 求 ， 然 后 在 负载 均衡 之 后 就 可 以 
使 用 缓存 了 。 


还 需要 考虑 ， 如 果 我 们 已 经 在 使 用 现成 的 SSO 方案 (比如 包含 用 户 名 密码 信息 的 SAML )， 
该 怎么 办 。 我 们 想 要 基本 身份 验证 使 用 同一 套 认证 信息 ， 然 后 在 同一 个 进程 里 颁发 和 撤销 
吗 ? 让 服务 与 实现 SSO 所 使 用 的 那个 目录 服务 进行 通信 即 可 做 到 这 一 点 。 或 者 ， 我 们 可 以 
在 服务 内 部 存储 用 户 名 和 密码 ， 但 需要 承担 存在 重复 行为 的 风险 。 


注意 : 使 用 这 种 方法 ， 服 务 器 只 知道 客户 端 有 用 户 名 和 密码 。 我 们 不 知道 这 个 信息 是 否 来 








自我 们 期 望 的 机 器 ， 它 可 能 来 自 网 络 中 的 其 他 人 。 


9.2.3 使 用 SAML 或 OpenID Connect 


如 果 你 已 经 在 使 用 SAML 或 OpenID Connect 作为 身份 验证 和 授权 方案 ， 你 可 以 在 服务 之 
间 的 交互 中 也 使 用 它们 。 如 果 你 正在 使 用 一 个 网 关 ， 可 以 使 用 同一 个 网 关 来 路 由 所 有 内 网 
通信 ， 但 如 果 每 个 服务 自己 处 理 集成 ， 那 么 系统 应 该 就 自然 而 然 这 么 工作 。 这 样 做 的 好 处 
在 于 ， 你 利用 现 有 的 基础 设施 ， 并 把 所 有 服务 的 访问 控制 集中 在 中 央 目 录 服 务 器 。 如 果 想 
要 避免 中 间 人 的 攻击 ， 我 们 仍然 需要 通过 HTTPS 来 路 由 通信 。 


客户 端 有 一 组 凭证 ， 用 于 向 身份 提供 者 验证 自身 ， 而 服务 获取 所 需 的 信息 ， 用 于 任何 细 粒 
度 的 身份 验证 。 


这 意味 着 你 需要 为 客户 端 创建 账户 ， 有 时 被 称 为 服务 账户 。 许 多 组 织 普遍 使 用 这 种 方法 。 
不 过 ， 需 提醒 一 句 : 如 果 你 打算 创建 服务 账户 ， 应 尽量 限制 其 使 用 范围 。 因 此 ， 考 虑 每 个 
微服 务 都 要 有 自己 的 一 组 赁 证。 如 果 和 凭证 被 泄露 ， 你 只 需 撤 销 有 限 的 受 影响 的 凭证 即 可 ， 
这 使 得 撤销 /更 改 访问 更 简单 。 


然而 ， 还 有 其 他 几 个 缺点 。 首 先 ， 像 使 用 基本 身份 验证 一 样 ， 我 们 需要 安全 地 存储 凭证 : 
用 户 名 和 密码 放 在 哪里 ? 客户 端 需要 找到 一 些 安全 的 方法 来 存储 这 些 数据 。 另 一 个 问题 
是 ， 在 这 个 领域 的 技术 实现 方面 ， 做 身份 验证 需要 写 相 当 繁 琐 的 代码 。 尤 其 是 SAML,， 在 
其 之 上 实现 一 个 客户 端 非常 痛苦 。OpenID Connect 的 工作 流 要 简单 些 ， 但 正如 我 们 前 面 所 
讨论 过 的 ， 它 尚未 被 很 好 地 支持 。 


9.2.4 客户 端 证 书 
确认 客户 端 身份 的 另 一 种 方法 是 ， 使 用 TLS (Transport Layer Security， 安 全 传输 层 协议 )， 
TLS 是 SSL 在 客户 端 证 书 方面 的 继任 者 。 在 这 里 ， 每 个 客户 端 都 安装 了 一 个 X.509 证 书 ， 
用 于 客户 端 和 服务 器 端 之 间 建 立 通信 和 链 路 。 服 务 器 可 以 验证 客户 端 证 书 的 真实 性 ， 为 客户 
端的 有 效 性 提供 强 有 力 的 保证 。 


使 用 这 种 方法 ， 证 书 管理 的 工作 要 比 只 使 用 服务 器 端 证 书 更 加 繁重 。 它 不 只 是 创建 和 管理 
数量 更 多 的 证 书 这 么 简单 ， 相 反 ， 所 有 的 复杂 性 在 于 证 书本 身 ， 你 很 有 可 能 会 花费 大 量 的 
时 间 来 试图 诊断 服务 端 为 什么 不 接受 你 认为 的 一 个 完全 有 效 的 客户 端 证书 。 接 下 来 ， 我 们 
要 考虑 在 最 坏 的 情况 下 ， 撤 销 和 补 发 证 书 的 难度 。 使 用 通配符 证 书 能 够 解决 一 些 问题 ， 但 
不 是 全 部 。 这 些 额外 的 负担 意味 着 ， 当 你 特别 关注 所 发 数据 的 敏感 性 ， 或 无 法 控制 发 送 数 
据 所 使 用 的 网 络 时 ， 才 考虑 使 用 这 种 技术 。 因 此 ， 你 应 该 在 通过 互联 网 发 送 非常 重要 的 数 
据 时 ， 才 使 用 安全 通信 。 
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9.2.5 HTTP 之 上 的 HMAC 


正如 我 们 前 面 所 讨论 的 ， 如 果 担 心 用 户 名 和 密码 被 泄露 ， 基 本 身份 验证 使 用 普通 HTTP 并 
不 是 非常 明智 的 。 传 统 的 奉 代 方式 是 使 用 HITPS 路 由 通信 ， 但 也 有 一 些 缺 点 。 除 了 需要 
管理 证 书 ，HTTPS 通信 的 开销 使 得 服务 器 压力 增加 〈 尽 管 ， 老 实说 ， 这 比 几 年 前 影响 要 小 
得 多 ) ， 而 且 通 信 难 以 被 轻松 地 缓存 。 


另 一 种 方法 使 用 HMAC (Hash-based Message Authentication Code， 基 于 哈 希 的 消息 码 ) 对 
请 求 进行 签名 ， 它 是 OAuth 规范 的 一 部 分 ， 并 被 广泛 应 用 于 亚马逊 AWS 的 S3 API。 


使 用 HMAC， 请 求 主体 和 私有 密 钥 一 起 被 哈 希 处 理 ， 生 成 的 哈 希 值 随 请 求 一 起 发 送 。 然 
后 ， 服 务 器 使 用 请 求 主体 和 自己 的 私 钥 副本 重建 哈 希 值 。 如 果 匹 配 ， 它 便 接 受 请 求 。 这 样 
做 的 好 处 是 ， 如 果 一 个 中 间 人 更 改 了 请 求 ， 那 么 哈 希 值 会 不 匹配 ， 服 务 器 便 知 道 该 请 求 已 
被 算 改 过 。 并 且 ， 私 钥 永 远 不 会 随 请 求 发 送 ， 因 此 不 存在 传输 中 被 泄露 的 问题 。 额 外 的 好 
处 是 ， 这 个 通信 更 容易 被 缓存 ， 而 且 生 成 哈 希 的 开销 要 低 于 处 理 HTTPS 通信 的 开销 ( 虽 
然 你 的 情况 有 可 能 不 同 )。 


这 种 方法 有 三 个 缺点 。 首 先 ， 客 户 端 和 服务 器 需要 一 个 共享 的 、 以 某 种 方式 交流 的 密 钥 。 
它们 如 何 共享 ? 可 能 是 在 两 端 都 硬 编码 ， 但 这 样 会 带 来 一 个 问题 ， 当 密 钥 被 泄露 后 ， 你 
需要 撤销 访问 。 如 果 你 通过 一 些 替 代 的 协议 来 共享 密 钥 ， 那 么 需要 确保 这 个 协议 是 非常 
安全 的 ! 


其 次 ， 这 是 一 种 模式 ， 而 不 是 标准 ， 因 此 有 各 种 不 同 的 实现 方式 。 结 果 就 是 ， 缺 乏 一 个 优 
秀 的 、 开 放 的 且 有 效 的 实现 方式 。 通 常 来 说 ， 如 果 你 对 这 种 方式 感 兴趣 ， 需 要 多 去 看 看 和 
理解 不 同 的 实现 方式 。 你 可 以 先 去 看 看 亚马逊 的 S3， 然 后 参考 它 的 方式 ， 特 别 是 类 似 于 
SHA-256 中 使 用 的 适当 长 度 的 密 钥 和 合理 的 哈 希 函数 。JWT (JSON Web Tokens，JSON 
Web 令 牌 ，http://self-issued.info/docs/draft-ietf-oauth-json-web-token.html) 也 值得 一 看 ， 它 
们 使 用 类 似 的 方式 实现 ， 并 且 似 乎 正在 吸引 更 多 的 关注 。 但 是 要 注意 ， 正 确实 现 这 个 方式 
的 难度 。 我 的 同事 曾经 与 一 个 团队 实施 自己 的 JWT 方案 ， 仅 仅 因 为 忽略 了 一 个 布尔 检查 ， 
就 导致 整个 身份 验证 码 都 失效 ! 希望 随 着 时 间 的 推移 ， 我 们 可 以 看 到 更 多 可 重用 库 的 实 
现 。 


最 后 ， 要 理解 这 种 方法 只 能 保证 第 三 方 无 法 篡改 请 求 ， 且 私 钥 本 身 不 会 泄露 。 但 请 求 中 所 
带 的 其 他 数据 ， 对 网 络 嗅 探 来 说 仍 是 可 见 的 。 


9.2.6 ”API 密 钥 

像 Twitter、 谷 歌 、Flickr 和 AWS 这 样 的 服务 商 ， 提 供 的 所 有 公共 API 都 使 用 API 密 钥 。 
API 密 钥 允许 服务 识别 出 是 谁 在 进行 调用 ， 然 后 对 他 们 能 做 的 进行 限制 。 限 制 通常 不 仅 限 
于 特定 资源 的 访问 ， 还 可 以 扩展 到 类 似 于 针对 特定 的 调用 者 限 速 ， 以 保护 其 他 人 服务 调用 





的 质量 等 。 


具体 该 如 何 使 用 API 密 钥 方式 来 处 理 你 的 微服 务 间 的 访问 ， 取 决 于 你 所 使 用 的 具体 技术 。 
一 些 系 统 使 用 一 个 共享 的 API 密 钥 ， 并 且 使 用 一 种 类 似 于 刚才 所 说 的 HMAC 的 方式 。 更 
常见 的 方法 是 ， 使 用 一 个 公 钥 私 钥 对 。 通 常情 况 下 ， 正 如 集中 管理 人 的 身份 标识 一 样 ， 我 
们 也 会 集中 管理 密 钥 。 网 关 模 型 在 这 个 领域 很 受 欢 迎 。 


其 受 欢 迎 的 原因 一 部 分 源 于 这 样 一 个 事实 ，API 密 钥 重点 关注 的 是 对 程序 来 说 的 易 用 性 。 
相对 于 处 理 SAML 握手 ， 基 于 API 密 钥 的 身份 验证 更 简单 直接 。 


API 密 钥 的 解决 方案 在 商业 和 开源 领域 存在 很 多 选项 ， 每 种 系统 提供 的 具体 功能 有 所 不 同 。 
有 些 产 品 只 处 理 API 密 钥 交换 和 一 些 基本 的 密 钥 管理 。 其 他 的 工具 提供 包括 限 速 、 变 现 、 
API 目录 和 发 现 系统 等 功能 。 

一 些 API 系统 允许 你 将 API 密 钥 和 现 有 目录 服务 联系 起 来 。 这 人 允许 将 API 密 钥 发 布 给 你 组 
织 中 的 主体 (代表 人 或 系统 )， 从 而 可 以 跟 管理 普通 凭证 一 样 ， 来 控制 这 些 密 钥 的 生命 膨 
期 。 这 为 通过 不 同 的 方式 访问 系统 ， 但 保持 一 样 的 可 靠 信息 来 源 提供 了 可 能 性 。 例 如 ， 如 
图 9-2 所 示 ，SSO 使 用 SAML 对 人 进行 身份 验证 及 服务 间 进 行 通信 时 使 用 API 密 钥 。 








提供 凭证 和 角色 信息 
的 唯一 可 靠 来 源 











9-2: 使 用 目录 服务 让 SSO 和 API 网 关 同步 主体 信息 


9.2.7 ”代理 问题 
给 指定 的 微服 务 进行 主体 的 身份 验证 非常 简单 。 但 是 ， 如 果 该 服务 需要 更 多 的 调用 才能 完 
成 ， 会 发 生 什 么 呢 ? 图 9-3 展示 了 MusicCorp 的 在 线 购物 网 站 。 我 们 的 在 线 商店 是 一 个 基 
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于 浏览 器 的 、 使 用 JavaScript 的 用 户 界面 。 它 使 用 我 们 在 第 4 章 介 绍 的 “为 前 端 服务 的 后 
端 ”模式 ， 来 调用 服务 器 端的 商店 应 用 程序 。 浏 览 器 对 服务 端 调用 时 的 身份 验证 ， 可 以 使 
用 SAML、OpenID Connect 或 类 似 的 方式 。 到 目前 为 止 ， 一切 还 好 。 












GET /orderStatus/12345 











GET /packageForOrder/12345 GET /order/12345 


图 9-3: 一 个 混淆 代理 人 可 以 实施 诡计 的 例子 


当 我 登录 后 ， 可 以 单 击 一 个 链接 来 查看 订单 的 详细 信息 。 为 了 显示 这 些 信息 ， 我 们 需 
要 从 订单 服务 中 找到 原始 订单 ， 但 我 们 也 想 要 查看 订单 的 物流 信息 。 所 以 点 击 链接 / 
orderStatus/12345， 会 使 在 线 商店 通过 在 线 商 店 服 务 向 订单 服务 和 物流 服务 发 送 请 求 ， 以 
获得 这 些 信息 。 但 这 些 下 游 服 务 是 否 该 接受 在 线 商 店 的 调用 呢 ? 我 们 可 以 采用 一 种 隐 式 信 
任 的 方式 : 因为 调用 在 我 们 的 信任 边界 内 ， 所 以 是 可 以 接受 的 。 我 们 甚至 可 以 使 用 证 书 或 
API 密 钥 ， 来 确认 真 的 是 在 线 商 店 请 求 这 些 信 息 。 但 这 是 否 就 足够 了 呢 ? 


有 一 种 安全 漏洞 叫 作 混 消 代 理 人 问题 ， 指 的 是 在 服务 间 通 信 的 上 下 文中 ， 攻 击 者 采用 一 些 
措施 欺骗 代理 服务 ， 让 它 调用 其 下 游 服 务 ， 从 而 做 到 一 些 他 不 应 该 能 做 的 事情 。 例 如 ， 作 
为 一 个 用 户 ， 当 我 登录 到 在 线 购物 系统 时 ， 可 以 查看 我 的 账户 详情 。 但 如 果 我 使 用 登录 后 
凭证， 欺骗 在 线 购物 用 户 界 面 去 请 求 别 人 的 信息 ， 那 该 怎么 办 ? 


在 这 个 例子 中 ， 如 何 阻止 我 查询 不 属于 我 的 订单 ?一旦 登录 ， 我 可 以 尝试 给 不 属于 我 的 其 
他 订单 发 送 请 求 ， 看 是 否 能 得 到 有 用 的 信息 。 我 们 可 以 尝试 让 在 线 商 店 本 身 防 止 这 种 情况 
的 发 生 ， 通 过 检查 订单 是 谁 的， 然后 拒绝 别人 访问 不 属于 自己 的 订单 。 然 而 ， 如 果 有 很 多 
不 同 的 应 用 程序 来 访问 这 些 信息 ， 可 能 会 在 很 多 地 方 重复 这 个 逻辑 。 我 们 可 以 直接 路 由 用 
户 界面 的 请 求 到 订单 服务 ， 让 它 来 验证 请 求 ， 不 过 这 样 会 遇 到 我 们 在 第 4 章 讨 论 过 的 各 种 
缺点 。 





另 一 种 方法 是 ， 当 在 线 商店 给 订单 服务 发 送 请 求 时 ， 它 不 仅 要 说 明 想 要 哪个 订单 ， 还 要 说 
明 以 谁 的 名 义 来 调用 。 一 些 身份 验证 方案 允许 我 们 传递 原始 主体 的 凭证 给 下 游 ， 不 过 使 用 
SAML 时 ， 这 会 是 一 场 焉 梦 ， 包 含 拒 套 的 SAML 断言 在 技术 上 是 可 实现 的 一 一 不 过 非常 之 








难 ， 以 至 于 从 来 没 人 实现 过 。 当 然 ， 这 可 能 变 得 更 加 复杂 。 想 象 一 下 ， 如 果 在 线 商店 调用 
的 服务 ， 转 而 调用 更 多 的 下 游 服务 。 我 们 需要 在 验证 代理 可 信 性 上 花费 多 少 精力 ? 


不 幸 的 是 ， 这 个 问题 没有 简单 的 答案 ， 因 为 它 本 身 就 不 是 一 个 简单 的 问题 。 不 过 ， 要 知道 
它 的 存在 。 根 据 所 讨论 操作 的 敏感 性 ， 你 可 能 需要 在 隐 式 信任 、 验 证 调用 方 的 身份 或 要 求 
调用 者 提供 原始 主体 的 凭证 这 些 安全 方式 里 做 一 个 选择 。 


9.3 ”静态 数据 的 安全 


数据 加 密 是 一 种 责任 ， 尤 其 当 它 是 敏感 数据 时 。 希 望 我 们 已 经 做 了 可 以 做 的 一 切 ， 以 确保 
攻击 者 不 能 攻破 我 们 的 网 络 ， 也 不 能 攻破 我 们 的 应 用 程序 或 操作 系统 ， 然 后 近 距 离 访问 底 
层 数 据 。 然 而 ， 我 们 需要 做 好 准备 ， 万 一 他 们 真 的 攻破 了 ， 我 们 该 怎么 办 。 深 度 防 御 非 常 
关键 。 


在 许多 有 名 的 安全 漏洞 中 ， 都 发 生 了 静态 数据 被 攻击 者 获取 的 情况 ， 且 其 中 的 内 容 对 攻击 
者 来 说 是 可 读 的 。 这 要 么 是 因为 数据 以 未 加 密 的 形式 存储 ， 要 么 是 因为 保护 数据 的 机 制 有 
根本 性 的 缺陷 。 


安全 信息 的 保护 机 制 是 多 种 多 样 的 ， 但 无 论 你 挑选 哪 种 方案 ， 有 一 些 基本 的 东西 需要 
牢记 。 


9.3.1 使 用 众所周知 的 加 密 算法 

搞 磺 数据 加 密 最 简单 的 方法 是 ， 党 试 实现 你 自己 的 加 密 算法 ， 或 甚至 试图 实现 别人 的 。 无 
论 使 用 哪 种 编程 语言 ， 都 有 被 广泛 认可 的 加 密 算法 可 供 使 用 ， 它 们 都 是 经 过 同行 评审 ， 并 
定期 打 补 本 的。 使 用 那些 算法 ! 并 且 订 阅 选 择 的 算法 的 邮件 列表 / 公告 列表 ， 以 确保 你 知 
道 他 们 新 发 现 的 漏洞 ， 这 样 就 可 以 给 算法 打 补 丁 或 更 新 了 。 


对 于 静态 数据 的 加 密 ， 除 非 你 有 一 个 很 好 的 理由 选择 别 的 ， 否 则 选择 你 的 开发 平台 上 的 
AES-128 或 AES-256 的 一 个 广为人知 的 实现 即 可 。Java 和 .NET 运行 时 都 包含 AES 的 实 
现 ， 它 们 很 可 能 都 是 经 过 充分 测试 的 《和 打 好 补丁 的 )， 但 是 对 于 大 多 数 平台 ， 也 存在 单 
独 的 库 ， 比 如 支持 Java 和 C# 的 Bouncy Castle 库 (http://www.bouncycastle.org/)。 


关于 密码 ， 你 应 该 考虑 使 用 一 种 叫 作 加 盐 密码 哈 希 (salted password hashing，https:// 
crackstation.net/hashing-security.htm#properhashing) 的 技术 。 


注 8: 通常 来 说 ， 密 钥 的 长 度 决定 了 暴力 破解 密 钥 所 需 的 工作 量 。 因 此 可 以 认为 密 钥 的 长 度 越 长 ， 你 的 数据 
越 安 全 。 然 而 ， 受 人 尊敬 的 安全 专家 Bruce Schneier 对 于 AES-256 中 某 些 类 型 的 密 钥 实现 表示 担心 
(https://www.schneier.com/blog/archives/2009/07/another_new_aes.html)。 你 在 阅读 本 书 的 时 候 在 这 方面 
需要 做 更 多 的 研究 ， 以 了 解 当 前 的 建议 是 什么 。 
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实现 得 不 好 的 加 密 比 没有 加 密 更 糟糕 ， 因 为 虚假 的 安全 感 会 让 你 的 视线 从 球 上 面 移 开 〈 双 
关 语 )。 


9.3.2 一 切 皆 与 密 钥 相关 

之 前 已 经 讨论 过 ， 加 密 的 过 程 依 赖 一 个 数据 加 密 算法 和 一 个 密 钥 ， 然 后 使 用 二 者 对 数据 进 
行 加 密 。 那 么 ， 你 的 密 钥 存储 在 哪里 ? 如 果 加 密 数 据 是 因为 担心 有 人 窃取 整个 数据 库 ， 那 
么 把 密 钥 存储 在 同一 个 数据 库 中 ， 并 不 会 真正 消除 这 种 担心 ! 因此 ， 我 们 需要 把 密 钥 存储 
到 其 他 地 方 。 但 存 到 哪里 呢 ? 


一 个 解决 方案 是 ， 使 用 单独 的 安全 设备 来 加 密 和 解密 数据 。 另 一 个 方案 是 ， 使 用 单独 的 密 
钥 库 ， 当 你 的 服务 需要 密 钥 的 时 候 可 以 访问 它 。 密 钥 的 生命 周期 管理 《和 更 改 它们 的 权 
限 ) 是 非常 重要 的 操作 ， 而 这 些 系统 可 以 帮 你 处 理 这 个 事情 。 


有 些 数据 库 甚 至 包含 内 置 的 加 密 支持 ， 比 如 SQL Server 的 透明 数据 加 密 (Transparent Data 
Encryption) ， 旨 在 以 一 种 透明 的 方式 处 理 这 个 问题 。 即 使 你 选择 的 数据 库 已 经 这 样 做 了 ， 
也 需要 研究 密 钥 是 如 何 处 理 的 ， 并 且 理 解 你 要 防范 的 威胁 是 否 真 的 消除 了 。 


再 说 一 次 ， 加 密 很 复杂 。 避 免 实 现 自己 的 方案 ， 花 些 时 间 在 已 有 的 方案 研究 上 ! 


9.3.3 选择 你 的 目标 

假设 一 切 都 需要 加 密 ， 可 以 在 一 定 程度 上 把 事情 简化 ， 不 需要 再 去 猜测 什么 应 该 或 不 应 该 
被 保护 。 然 而 ， 你 仍然 需要 考虑 哪些 数据 可 以 被 放 入 日 志文 件 ， 以 帮助 识别 问题 ， 而 且 一 
切 加 密 的 计算 开销 会 变 得 相当 重 ， 因 此 需要 更 强大 的 硬件 。 当 你 把 数据 库 迁 移 作为 重 构 数 
据 库 模 式 的 一 部 分 时 ， 这 就 更 具 挑 战 性 。 根 据 所 做 的 更 改 ， 数 据 可 能 需要 解密 、 迁 移 和 重 
加 密 。 


通过 把 系统 划分 为 更 细 粒 度 的 服务 ， 你 可 能 发 现 加密 整 个 数据 存储 是 可 行 的， 但 即使 可 行 
也 不 要 这 么 做 。 限 制 加 密 到 一 组 指定 的 表 是 明智 的 做 法 。 


9.3.4 按 需 解密 
第 一 次 看 到 数据 的 时 候 就 对 它 加 密 。 只 在 需要 时 进行 解密 ， 并 确保 解密 后 的 数据 不 会 存储 
在 任何 地 方 。 


9.3.5 “加 密 备 份 

备份 是 有 好 处 的 。 我 们 想 要 备份 重要 的 数据 ， 那 些 我 们 非常 担心 的 需要 加 密 的 数据 ， 几 乎 
也 自然 重要 到 需要 备份 ! 所 以 它 看 起 来 像 是 显而易见 的 观点 ， 但 是 我 们 需要 确保 备份 也 被 
加 密 。 这 意味 着 ， 我 们 需要 知道 应 该 用 哪个 密 钥 来 处 理 哪 个 版 本 的 数据 ， 特 别 是 当 密 钥 更 





改 时 。 清 晰 的 密 钥 管理 变 得 非常 重要 。 


Ry pd 
9.4 深度 防御 
正如 我 前 面 所 提 到 的 ， 我 不 喜欢 把 所 有 的 鸡蛋 都 放 在 一 个 篮子 里 ， 而 是 做 深度 防御 。 我 们 
已 经 介绍 了 传输 数据 的 安全 以 及 静态 数据 的 安全 。 但 还 有 其 他 防护 方法 可 以 帮助 我 们 吗 ? 


9.4.1 防火 墙 


有 一 个 或 多 个 防火 墙 是 一 个 非常 明智 的 预防 措施 。 有 些 非常 简单 ， 只 在 特定 端口 限制 特定 
的 通信 类 型 。 其 他 的 则 要 复杂 一 些 。 例 如 ，ModSecurity 是 一 种 应 用 程序 防火 墙 ， 可 以 在 
特定 的 耳 范围 限制 连接 数 ， 并 检测 其 他 类 型 的 恶意 攻击 。 


多 个 防火 墙 是 有 价值 的 。 你 可 能 决定 在 本 地 主机 上 使 用 IPTables， 设 置 允许 的 入 口 和 出 口 ， 
以 确保 这 个 主机 的 安全 。 这 些 规则 可 以 根据 本 地 运行 的 服务 进行 定制 ， 而 外 围 的 防火 墙 则 
控制 一 般 的 访问 。 


9.4.2 日 志 


好 的 日 志 实践 ， 特 别 是 聚合 多 个 系统 的 日 志 的 能 力 ， 虽 然 不 能 起 到 预防 的 作用 ， 但 可 以 帮 
助 检测 出 发 生 了 不 好 的 事情 ， 以 便 之 后 进行 恢复 。 例 如 ， 在 应 用 安全 补丁 后 ， 你 经 常 能够 
在 日 志 中 看 到 是 否 有 人 曾经 利用 过 某 种 安全 漏洞 。 打 补丁 可 以 确保 它 不 再 发 生 ， 但 如 果 已 
经 发 生 了 ， 你 可 能 需要 进入 恢复 模式 。 


日 志 可 以 让 你 事后 看 看 是 否 有 不 好 的 事情 发 生 过 。 但 是 请 注意 ， 我 们 必须 小 心 那些 存储 在 
日 志 里 的 信息 ! 敏感 信息 需要 被 剔除 ， 以 确保 没有 泄露 重要 的 数据 到 日 志 里 ， 如 果 泄 露 的 
话 ， 最 终 可 能 会 成 为 攻击 者 的 重要 目标 。 


9.4.3 入侵 检测 (和 预防 ) 系统 


IDS (Intrusion Detection Systems， 入 侵 检 测 系 统 ) 可 以 监控 网 络 或 主机 ， 当 发 现 可 疑 行为 
时 报告 问题 。IPS (Intrusion Prevention Systems， 入 侵 预 防 系统 ) , 也 会 监控 可 疑 行为 ,并 
进一步 阻止 它 的 发 生 。 不 同 于 防火 墙 主要 是 对 外 阻止 坏事 进来 ，IDS 和 IPS 是 在 可 信和 范围 
内 积极 寻找 可 疑 行为 。 当 你 从 零 开 始 时 ，IDS 可 能 更 有 意义 。 这 些 系统 是 基于 启发 式 的 
(正如 很 多 的 应 用 防火 墙 )， 很 有 可 能 刚 开 始 的 通用 规则 ， 对 于 你 的 服务 行为 来 说 过 于 宽松 
或 过 于 严格 。 


使 用 在 告警 方面 相对 更 加 积极 的 IDS 之 前 ， 应 该 先 使 用 相对 被 动 的 IDS， 因 为 在 这 种 情况 
下 更 容易 优化 规则 。 
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9.4.4 网 络 隔离 

对 于 单 块 系统 而 言 ， 我 们 在 通过 构造 网 络 来 提供 额外 的 保护 方面 能 做 的 很 有 限 。 不 过 ,在 
微服 务 系统 中 ， 你 可 以 把 服务 放 进 不 同 的 网 段 ， 以 进一步 控制 服务 间 的 通信 。 例 如 ，AWS 
提供 自动 创建 VPN (Virtual Private Cloud， 虚 拟 私有 云 ) 的 能 力 ， 它 允许 主机 处 在 不 同 的 
子 网 中 。 然 后 你 可 以 通过 定义 对 等 互 连 规则 (peering rules)， 指 定 哪 个 VPC 可 以 跟 对 方 通 
信 ， 甚 至 可 以 通过 网 关 把 流量 路 由 到 代理 中 ， 实 际 上 ， 它 提供 了 风 个 网 络 范 围 ， 在 其 中 可 
以 实施 额外 的 安全 措施 。 


这 允许 你 基于 团队 的 所 有 权 或 者 风险 水 平 来 进行 网 络 分 段 。 


9.4.5 ”操作 系统 


我 们 的 系统 依赖 于 大 量 的 不 是 我 们 自己 编写 的 软件 ， 即 操作 系统 和 其 他 的 支持 工具 ， 其 中 
的 安全 漏洞 有 可 能 会 暴露 我 们 的 应 用 程序 。 在 这 里 ， 基 本 的 建议 能 让 你 走 得 很 远 。 给 操作 
系统 的 用 户 尽量 少 的 权限 ， 开 始 时 也 许 只 能 运行 服务 ， 以 确保 即使 这 种 账户 被 盗 ， 造 成 的 
伤害 也 最 小 。 


接 下 来 ， 定 期 为 你 的 软件 打 补 丁 。 这 需要 自动 化 ， 并 且 你 需要 知道 机 器 是 否 与 最 新 的 补丁 
级 别 不 同步 。 像 微软 的 SCCM， 或 红 帆 的 Spacewalk 这 样 的 工具 ， 在 这 方面 能 提供 帮助 ， 
因为 它们 可 以 帮助 你 查看 机 器 是 否 已 更 新 到 最 新 的 补丁 ， 如 果 没 有 的 话 发 起 更 新 。 如 果 使 
用 像 Ansible、Puppet 或 Chef 这 样 的 工具 ， 很 可 能 你 对 自动 化 推送 更 新 已 经 相当 满意 了 。 
这 些 工 具 也 可 以 帮助 你 走 很 长 的 路 ， 但 不 会 为 你 做 一 切 。 


这 真 的 是 最 基本 的 东西 ， 但 令 人 惊讶 的 是 ， 我 经 常 看 到 很 多 重要 的 软件 运行 在 未 安装 补丁 
的 、 陈 旧 的 操作 系统 上 。 你 可 能 拥有 世界 上 最 好 的 受 保护 的 应 用 程序 级 安全 ， 但 如 果 有 一 
个 旧版 本 的 Web 服务 器 作为 root 用 户 运行 在 你 的 机 器 上 ， 而 机 器 没有 应 用 缓冲 区 溢出 的 
漏洞 补丁 ， 那 么 你 的 系统 仍然 是 极其 脆弱 的 。 


如 果 你 正在 使 用 的 是 Linux 操作 系统 ， 另 一 件 事 是 ， 看 看 操作 系统 本 身 安 全 模块 的 发 展 。 
例如 ，AppArmour， 人 允许 你 自 定义 应 用 程序 的 预期 行为 ， 内 核 会 对 其 进行 监控 。 如 果 它 开 
始 做 一 些 不 该 做 的 事情 时 ， 内 核 就 会 介入 。AppArmour 已 经 存在 一 段 时 间 了 ，SeLinux 也 
是 。 尽 管 从 技术 上 来 说 ， 它 们 俩 在 任何 新 版 Linux 系统 上 应 该 都 可 用 ， 但 实际 上 ， 某 些 发 
行 版 对 其 中 一 个 的 支持 会 比 另外 一 个 要 好 。 例 如 ，Ubuntu 和 SuSE 默认 使 用 AppArmour， 
而 RedHat 一 直 以 来 都 支持 SELinux。 一 个 新 的 选择 是 GrSSecurity， 叶 在 扩展 AppArmour 
和 GrSecurity 功能 的 同时 ， 增 加 其 易 用 性 ， 但 它 需 要 一 个 定制 的 内 核 才 能 工作 ; 我 建议 你 
三 个 工具 都 看 看 ， 然 后 挑选 一 个 最 适合 自己 使 用 场景 的 工具 ， 但 我 喜欢 在 工作 中 多 加 一 层 
保护 和 预防 的 想法 。 





9.5 一 个 示例 


一 个 细 粒 度 的 架构 ， 在 安全 实施 上 给 了 我 们 更 多 的 自由 。 对 于 那些 处 理 最 敏感 信息 的 ， 或 
暴露 最 有 价值 的 功能 的 部 分 ， 我 们 可 以 采用 最 严格 的 安全 措施 。 但 对 系统 的 其 他 部 分 ， 我 
们 可 以 采用 宽松 一 些 的 安全 措施 。 


让 我 们 再 次 考虑 MusicCorp 并 结合 之 前 的 一 些 概念 ， 看 看 可 以 在 哪里 以 及 如 何 使 用 这 些 安 
全 技术 。 我 们 主要 考虑 传输 中 的 数据 和 静态 数据 的 安全 问题 。 我 们 即将 分 析 的 是 图 9-4 显 
示 的 整个 系统 中 的 一 部 分 ， 目 前 欠缺 对 安全 问题 的 考虑 。 一 切 都 是 通过 普通 的 HTTP 传输 。 

















图 9-4: MusicCorp 不 安全 架构 的 一 个 子 集 


在 这 个 例子 中 ， 我 们 的 客户 使 用 标准 的 Web 浏览 器 ， 在 MusicCorp 网 站 上 购物 。 我 们 还 
引入 第 三 方 版 税 网 关 的 概念 : 我 们 已 经 开始 与 第 三 方 公司 合作 ， 为 新 的 流 媒 体 服务 收取 
版 税 。 它 会 间断 性 地 获取 已 下 载 音 乐 的 记录 一 一 这 个 信息 我 们 需要 小 心地 保护 ， 以 防止 
被 竞争 对 手 获取 。 最 后 ， 我 们 将 产品 目录 数据 暴露 给 其 他 第 三 方 。 例 如 ， 人 允许 在 音乐 评 
论 网 站 中 ， 艇 入 艺术 家 或 歌曲 的 相关 信息 。 在 我 们 的 网 络 范围 内 ， 有 一 些 协作 的 服务 仅 
在 内 部 使 用 。 


对 于 浏览 器 ， 我 们 会 为 无 需 安全 保护 的 内 容 使 用 标准 HITP， 以 便 其 能 被 缓存 。 对 于 有 安 
全 需要 的 、 登 录 后 才 可 访问 的 页 面 ， 所 有 的 内 容 都 通过 HTTPS 传输 ， 这 样 ， 如 果 我 们 的 
客户 使 用 像 公共 WiFi 那样 的 网 络 ， 能 够 给 他 们 提供 额外 的 保护 。 


当 涉 及 第 三 方 的 版 税 支付 系统 时 ， 我 们 所 关注 的 不 仅仅 是 公开 数据 的 性 质 ， 还 要 确保 我 们 
得 到 的 请 求 是 合法 的 。 在 这 里 ， 我 们 坚持 让 第 三 方 使 用 客户 端 证 书 。 所 有 的 数据 传输 都 通 
过 一 条 安全 的 、 加 密 的 通道 ， 这 能 够 提高 我 们 确保 请 求 主体 合法 性 的 能 力 。 当 然 ， 我 们 也 
需要 考虑 当 数据 离开 控制 范围 后 ， 会 发 生 什么 事情 。 合 作 伙 伴 是 否 会 跟 我 们 一 样 关心 这 些 
数据 ? 
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对 于 产品 目录 数据 的 聚合 ， 我 们 希望 尽 可 能 广泛 地 共享 这 些 信 息 ， 让 人 们 很 方便 地 从 我 们 
这 里 购买 音乐 ! 然而 ， 我 们 不 希望 这 个 信息 被 滥用 ， 而 且 想 要 知道 是 谁 在 使 用 我 们 的 数 
据 。 在 这 里 ， 使 用 API 密 钥 是 一 个 绝 佳 的 选择 。 


在 网 络 范围 内 部 ， 情 况 有 点 微妙 。 我 们 有 多 担心 有 人 威胁 我 们 的 内 部 网 络 ? 理想 情况 下 ， 
最 低 限 度 也 应 该 使 用 HITPS， 但 是 它 的 管理 有 点 痛苦 。 我 们 决定 ， 花 费 更 多 精力 来 夯实 
网 络 边 界 上 的 防护 (至 少 在 刚 开始 时 )， 这 包括 使 用 一 个 正确 配置 的 防火 墙 ， 选 择 适当 的 
硬件 或 软件 安全 装置 检查 恶意 流量 (例如 ， 端 口 扫描 或 拒绝 服务 攻击 ，denial-of-service 


attacks ) 。 


也 就 是 说 ， 我 们 担心 的 是 数据 及 其 存储 的 地 方 。 我 们 并 不 担心 产品 目录 服务 ， 毕 竞 ， 我们 
希望 共享 这 些 数 据 ， 并 为 它 提供 了 一 个 API ! 但 是 我 们 很 担心 客户 的 数据 。 在 这 里 ， 我 们 
决定 加 密 客户 服务 中 的 数据 ， 并 需要 在 读 取 时 解密 。 如 果 攻 击 者 真 的 次 入 我 们 的 网 络 ， 他 
们 仍然 可 以 发 送 请 求 给 客户 服务 的 API， 但 当前 的 实现 并 不 允许 批量 检索 客户 数据 。 如 果 
这 个 情况 真 的 发 生 ， 我 们 可 能 需要 考虑 使 用 客户 端 证 书 来 保护 这 些 信 息 。 即 使 攻击 者 攻破 
数据 库 所 在 的 机 器 ， 下 载 了 全 部 内 容 ， 他 们 也 将 需要 访问 用 于 加 密 和 解密 数据 的 密 钥 才能 
使 用 这 些 数据 。 


图 9-5 显示 了 最 终 的 结果 。 正 如 你 所 看 到 的 ， 基 于 对 被 保护 信息 本 质 的 了 解 ， 我 们 最 终 选 
择 了 这 些 技术 。 你 自己 的 架构 安全 关注 点 很 有 可 能 非常 不 同 ， 所 以 最 终 你 可 能 会 有 一 个 看 
起 来 不 一 样 的 解决 方案 。 


- 
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图 9-5; 更 安全 的 MusicCorp 系统 





9.6 ”保持 节俭 


由 于 磁盘 空间 变 得 更 便宜 ， 并 且 数 据 库 的 功能 进一步 加 强 ， 获 取 和 存储 大 量 信息 的 性 能 正 
迅速 改善 。 这 些 数据 是 有 价值 的 一 一 不 仅仅 是 对 企业 本 身 ， 他 们 越 来 越 多 地 把 数据 当 作 一 
个 宝贵 资产 ， 同 样 对 看 重 自己 隐私 的 用 户 来 说 数据 也 很 重要 。 属 于 个 人 的 数据 ， 或 者 可 以 
用 来 获得 个 人 信息 的 数据 ， 是 我 们 最 关心 的 。 


然而 ， 如 果 让 我 们 的 生活 更 轻松 一 点 呢 ? 为 什么 不 尽快 删改 尽 可 能 多 的 、 可 以 作为 个 人 身 
份 的 数据 ? 当 用 户 请 求 登录 时 ， 我 们 需要 永远 存储 完整 的 耳 地 址 吗 ? 或 者 我 们 是 否 可 以 用 
x 替换 最 后 几 位 数字 ? 我 们 需要 存储 用 户 的 姓名 、 年 龄 、 性 别 和 出 生日 期 ， 以 便 为 他 提供 
产品 建议 ， 还 是 其 年 龄 范围 和 邮编 这 样 的 信息 就 已 经 足够 了 ? 


这 样 做 的 好 处 是 多 方面 的 。 首 先 ， 如 果 你 不 存储 它 ， 就 没有 人 能 偷 走 它 。 第 二 ， 如 果 你 不 
存储 它 ， 就 没有 人 例如， 政府 机 构 ) 可 以 要 它 ! 





德国 短语 Datensparsamkeit 表达 了 这 一 概念 。 这 个 短语 起 源 于 德国 的 隐私 法 ， 它 封装 了 这 
一 概念 ， 即 只 存储 完成 业务 运营 或 满足 当地 法 律 所 需要 的 信息 。 


这 显然 与 存储 更 多 信息 这 个 方向 有 冲突 ， 但 这 仅仅 是 意识 到 这 个 冲突 存在 的 一 个 开始 ! 


9.7 人 的 因素 


我 们 这 里 介绍 的 内 容 多 是 关于 如 何 实施 技术 保障 措施 ， 以 保护 你 的 系统 和 数据 免 受 恶意 的 
外 部 攻击 者 破坏 的 基础 知识 。 不 过 ， 你 可 能 还 需要 流程 和 政策 ， 来 处 理 组 织 中 的 人 为 因 
素 。 当 有 人 离开 组 织 时 ， 你 如 何 撤销 访问 和 凭证? 你 如 何 保护 自己 免 受 社会 工程 学 的 攻击 ? 
作为 一 个 好 的 思维 银 炼 ， 你 可 以 考虑 一 个 心怀 不 满 的 前 雇员 ， 如 果 他 想 的 话 ， 可 能 会 如 何 
损害 你 的 系统 。 让 自己 站 在 恶意 方 的 角度 思考 ， 通 常 是 一 个 了 解 你 可 能 需要 做 什么 保护 的 
好 方法 ， 而 且 确 实 有 一 些 恶 意 方 可 能 具有 跟 当 前 雇员 同样 多 的 内 部 信息 。 


9.8 黄金 法 则 


如 有 果 你 只 能 带 走 本 章 的 一 句 话 ， 那 便 是 : 不 要 实现 自己 的 加 密 算法 。 不 要 发 明 自己 的 安全 
协议 。 除 非 你 是 一 个 有 多 年 经 验 的 密码 专家 ， 如 果 你 尝试 发 明 自己 的 编码 或 精密 的 加 密 算 
法 ， 你 会 出 错 。 即 使 你 是 一 个 密码 专家 ， 仍 然 可 能 会 出 错 。 


许多 之 前 提 到 的 工具 ， 比 如 AES， 都 在 行业 中 身 经 百 战 ， 其 底层 算法 一 直 被 同行 审查 ， 软 
件 实现 多 年 来 也 一 直 被 严格 测试 和 打 补丁 。 它 们 已 经 足够 好 了 ! 重新 发 明 轮 子 在 很 多 情况 
下 通常 只 是 浪费 时 间 ， 但 在 安全 领域 ， 它 会 带 来 直接 的 危害 。 





9.9 内 建安 全 


就 像 对 待 自动 化 功能 测试 那样 ， 我 们 不 想 把 安全 留 给 一 组 不 同 的 人 实现 ， 也 不 想 把 所 有 的 
事情 留 到 最 后 一 分 钟 才 去 做 。 帮 助 培养 开发 人 员 的 安全 意识 很 关键 ， 提 高 每 个 人 对 安全 问 
题 的 普遍 意识 ， 有 助 于 从 最 开始 减少 这 些 问 题 。 让 人 们 熟悉 OWASP 十 大 列表 和 OWASP 
的 安全 测试 框架 ,是 一 个 很 好 的 起 点 。 不 过 ， 安 全 专家 也 绝对 有 用 武之 地 ， 如 果 你 能 联系 
到 他 们 ， 可 以 让 他 们 来 帮助 你 。 


有 些 自动 化 工具 可 以 帮助 我 们 探测 系统 漏洞 ， 比 如 发 现 跨 站 脚本 攻击 。ZAP (Zed Attack 
Proxy) 就 是 一 个 很 好 的 例子 。 它 由 OWASP 出 品 ， 尝 试 重 现 对 网 站 的 恶意 攻击 。 一 些 
其 他 工具 使 用 静态 分 析 ， 寻 找 可 能 会 导致 安全 漏洞 的 常见 编码 错误 ， 例 如 针对 Ruby 的 
Brakeman (http://brakemanscanner.org/)。 这 些 工具 可 以 很 容易 地 集成 到 日 常 的 CI 构建 中 ， 
以 及 标准 的 代码 签 入 过 程 中 。 基 他 类 型 的 自动 化 测试 相对 来 说 比较 复杂 。 例 如 ， 像 Nessus 
之 类 的 漏洞 扫描 工具 ， 它 需要 人 为 来 解释 运行 结果 。 也 就 是 说 ， 这 些 测试 仍然 是 可 自动 化 
的 ， 但 以 类 似 运行 负载 测试 的 节奏 来 运行 它们 ， 可 能 比较 合适 。 


微软 的 安全 开发 生命 周期 (Security Development Lifecycle，http://www.microsoft.com/en-us/ 
sdl/default.aspx) 也 有 一 些 很 好 的 模型 来 帮助 交付 团队 内 建安 全 。 其 中 一 些 内容 似 乎 过 于 课 
布 了 ， 不 过 还 是 值得 参考 的 ， 看 看 哪些 方面 可 以 融入 到 你 当前 的 工作 中 。 


9.10 “外 部 验证 


对 于 安全 ， 我 认为 进行 外 部 评估 的 价值 很 大 。 由 外 部 方 实施 的 类 似 渗透 测试 这 样 的 实验 ， 
真 的 可 以 模拟 现实 世界 的 意图 。 这 样 做 还 可 以 避 开 这 样 的 问题 : 团队 并 不 总 能 看 到 自己 所 
犯 的 错误 ， 因 为 他 们 太 接 近 于 问题 本 身 了 。 如 果 是 一 个 足够 大 的 公司 ， 可 能 有 一 个 专门 的 
言 息 安全 团队 帮助 你 。 如 果 不 是 ， 找 一 个 外 部 方 也 可 以 。 早 点 接触 他 们 ， 了 解 他 们 是 如 何 
工作 的 ， 并 向 其 学 习 做 一 个 安全 测试 需要 关注 哪些 内 容 。 


你 还 需要 考虑 ， 每 次 发 布 前 需要 多 少 验 证 。 一 般 来 说 ， 并 不 是 每 次 小 的 增 量 发 布 都 需要 做 
一 个 完整 的 渗透 测试 ， 可 能 大 的 变化 才 需 要 。 你 的 需求 取决 于 你 自己 能 承担 的 风险 。 


9.11 “小结 

我 们 再 次 回 到 本 书 的 核心 主题 : 把 系统 分 解 为 更 细 粒 度 的 服务 ， 让 我 们 在 解决 问题 上 有 
更 多 的 选择 。 微 服务 不 仅 可 能 会 减少 任何 安全 破坏 的 影响 ， 它 还 给 予 我 们 更 多 的 能 力 对 
数据 敏感 的 情况 ， 采 取 开 销 更 大 、 更 复杂 和 更 安全 的 方案 ， 而 当 风 险 低 时 ， 采 用 更 轻 量 
级 的 方案 。 


一 旦 你 了 解 系统 不 同 部 分 的 威胁 级 别 ， 就 可 以 知道 什么 时 候 需要 考虑 传输 中 的 安全 ， 什 么 





时 候 需 要 考虑 静态 安全 ， 或 根本 不 用 考虑 安全 。 


最 后 ， 理 解 深度 防御 的 重要 性 。 给 你 的 操作 系统 持续 打 补丁 , 即使 你 认为 自己 是 一 个 揪 滚 
明星 ， 也 不 要 尝试 实现 自己 的 加 密 算法 ! 


如 果 你 想 要 一 个 基于 浏览 器 的 应 用 程序 安全 的 基本 概述 ， 优 秀 的 非 营利 的 OWASP (Open 
Web Application Security Project， 开 放 式 Web 应 用 程序 安全 项 目 ，https://www.owasp.org/) 
是 一 个 很 好 的 起 点 ， 其 定期 更 新 的 十 大 安全 风险 文档 ， 应 被 视 为 所 有 开发 人 员 的 必 备 读 
物 。 最 后 ， 如 果 你 想 要 获得 关于 密码 学 的 更 全 面 的 讨论 ， 请 查阅 由 Niels Ferguson、Bruce 
Schneier 和 Tadayoshi Kohno 所 著 的 Cryptography Engineering。 


逐步 了 解 安全 的 过 程 ， 往 往 也 是 理解 人 以 及 他 们 如 何 使 用 我 们 系统 的 过 程 。 关 于 微服 务 ， 
还 有 一 个 与 人 相关 的 方面 没有 做 讨论 ， 就 是 组 织 结构 和 系统 架构 之 间 的 相互 影响 。 正 如 安 
全 一 样 ， 我 们 会 发 现 ， 名 视 人 的 因素 会 是 一 个 严重 的 错误 。 
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第 10 章 


康 威 定律 和 系统 设计 





到 目前 为 止 ， 本 书 大 部 分 的 内 容 集 中 在 向 细 粒 度 架 构 迈 进 时 所 面临 的 技术 挑战 :但 除 此 之 
外 ， 我 们 也 需要 考虑 组 织 方面 的 问题 。 在 这 一 章 ， 我 们 将 了 解 到 忽略 公司 的 组 织 结 构 会 带 
来 什么 样 的 危险 。 
我 们 的 行业 还 很 年 轻 ， 它 似乎 在 不 断 地 重 塑 自己 。 不 过 ,一 些 关键 定律 还 是 经 受 住 了 时 间 
的 考验 。 例 如 摩尔 定律 ， 它 表示 集成 电路 上 可 容纳 的 晶体 管 数目 每 两 年 会 增加 一 倍 。 该 定 
律 已 经 被 证 明 准 确 得 惊人 (尽管 有 人 预测 ， 这 种 趋势 已 经 放 缓 )。 还 有 一 条 定律 ， 我 发 现 
几乎 普遍 适用 , 在 我 的 日 常 工作 中 也 更 有 用 ， 那 就 是 康 威 定律 。 
梅 尔 " 康 威 于 1968 年 4 月 在 Datamation 杂志 上 发 表 了 一 篇 名 为 “How Do Committees 
Invent” 的 论文 ， 文 中指 出: 
任何 组 织 在 设计 一 套 系 统 (广义 概念 上 的 系统 ) 时 ， 所 交付 的 设计 方案 在 结构 上 
都 与 该 组 织 的 沟通 结构 保持 一 致 。 
这 句 话 被 称 为 康 威 定律 ,经常 以 各 种 形式 被 引述 。 埃 里 克 。S. 雷 蒙 德 在 《新 黑客 字典 》 
总 


中 总 结 这 一 现象 时 指出 :“ 如 果 你 有 四 个 小 组 开发 一 个 编译 器 ， 那 你 会 得 到 一 个 四 步 编 
译 器 。” 


10.1 证 据 


据说 ， 当 年 康 威 将 这 个 话题 的 论文 提交 给 《哈佛 商业 评论 》 时 被 拒绝 了 ， 因 为 他 们 认为 没 
有 证 据 能 够 证 明 他 的 论点 。 但 我 认为 它 是 正确 的 ， 因 为 我 在 许多 不 同 的 场景 看 到 过 这 个 理 
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论 被 证 实 ， 但 你 不 必 相 信 我 的 话 。 自 从 康 威 的 论文 提交 以 来 ， 人 们 在 这 一 领域 进行 了 大 量 
的 研究 ， 探 讨 组 织 结构 和 他 们 创建 的 系统 之 间 的 关系 。 


10.1.1 松 耦 合 组 织 和 紧 耦 合 组 织 

在 Exploring the Duality Between Product and Organizational Architectures 一 书 中 ， 作 者 Alan 
MacCormack、John Rusnak 和 Carliss Baldwin 研究 了 大 量 不 同 的 软件 系统 , 把 创建 这 些 系 
统 的 组 织 大 致 分 为 松 胡 合 组 织 和 紧 塌 合 组 织 。 紧 耦合 组 织 的 一 个 例子 是 商业 产品 公司 ， 他 
们 的 员工 都 在 一 起 工作 ， 并 有 着 一 致 的 愿景 和 目标 ， 而 松 耦 合 组 织 的 典型 代表 是 分 布 式 开 
源 社区 。 


在 研究 中 ， 通 过 匹配 不 同类 型 组 织 中 比较 相似 的 产品 ， 他 们 发 现 ， 组 织 的 耦合 度 越 低 ， 其 
创建 的 系统 的 模块 化 就 越 好 ， 耦 合 也 越 低 ， 组 织 的 耦合 度 越 高 ， 其 创建 的 系统 的 模块 化 也 
越 差 。 


10.1.2 Windows Vista 


微软 对 它 的 一 个 特定 产品 Windows Vista 进行 了 实证 研究 (http://research.microsoft.com/ 
pubs/70535/tr-2008-11.pdf) ， 观 察 其 自身 组 织 结构 如 何 影响 软件 质量 。 上 有 具体 而 言 ， 研 究 者 
通过 查看 多 种 因素 来 确定 系统 中 什么 样 的 组 件 容 易 出 错 。" 涉及 的 指标 包括 代码 复杂 度 等 
常用 的 软件 质量 指标 。 从 统计 数据 可 以 看 出 ， 与 组 织 结构 相关 联 的 指标 和 软件 质量 的 相关 
度 最 高 。 


关于 组 织 结构 如 何 影响 其 创建 的 系统 ， 还 有 另 一 个 例子 。 


10.2 Netflix 和 Amazon 


组 织 和 架构 应 该 一 致 ， 信 奉 这 个 理念 的 两 个 典范 是 Amazon 和 Netflix。 在 早期 ，Amazon 
就 开始 理解 了 ， 团 队 对 他 们 所 管理 系统 的 整个 生命 周期 负责 的 好 处 。 它 想 要 团队 共同 拥有 
和 运营 其 创建 的 系统 ， 并 管理 整个 生命 周期 。Amazon 也 相信 ， 小 团队 会 比 大 团队 的 工作 
更 有 效 。 于 是 产生 了 著名 的 “两 个 比萨 团队 ”, 即 没有 一 个 团队 应 该 大 到 两 个 比萨 不 够 吃 。 
帮助 小 团队 对 服务 的 整个 生命 周期 负责 ， 是 驱动 Amazon 开发 AWS 的 一 个 主要 原因 。 团 
队 需 要 一 些 工具 来 自助 式 地 获取 相应 的 计算 资源 等 。 


Netflix 从 这 个 例子 中 学 到 了 很 多 ， 因 此 从 一 开始 ， 它 就 确保 其 本 身 是 由 多 个 小 而 独立 的 团 
队 组 成 ， 以 保证 他 们 创建 的 服务 也 能 独立 于 彼此 。 这 确保 了 系统 的 架构 可 以 快速 地 优化 。 
实际 上 ，Netflix 为 了 想 要 的 系统 架构 ， 才 设计 了 这 样 的 组 织 结构 。 


注 9: 我 们 都 知道 Windows Vista 非常 容易 出 错 。 
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10.3 ”我们 可 以 做 什么 


这 些 证 据 、 轶 事 和 经 验 表 明 ， 组 织 结构 对 系统 的 性 质 和 质量 确实 有 着 次 刻 的 影响 。 这 个 理 
解 对 我 们 有 什么 帮助 ? 让 我 们 看 看 几 种 不 同 的 组 织 情况 ， 了 解 每 种 情况 对 我 们 的 系统 设计 
可 能 产生 的 影响 。 


10.4 适应 沟通 途径 


让 我 们 首先 单独 考虑 一 个 简单 的 团队 。 它 负责 系统 设计 与 实现 的 各 个 方面 。 团 队 内 可 以 进 
行 频 繁 的 、 细 粒度 的 沟通 。 想 象 一 下 ， 由 这 样 的 团队 负责 一 个 单一 的 服务 ， 比 如 音乐 商店 
的 产品 目录 服务 。 服 务 的 内 部 是 大 量 细 粒 度 的 方法 或 函数 调用 。 正 如 之 前 所 讨论 的 ， 我们 
希望 通过 服务 拆 分 ， 使 得 服务 内 变化 的 频 度 要 远 远 高 于 服务 间 变 化 的 频 度 。 这 个 有 着 细 粒 
度 沟通 能 力 的 团队 ， 能 够 与 服务 内 部 频繁 讨论 代码 这 个 需求 很 好 地 匹配 。 


这 个 团队 发 现 ， 关 于 更 改 和 重 构 的 讨论 更 容易 进行 ， 而 且 团 队 成 员 通 常 都 很 有 责任 感 。 


现在 让 我 们 来 想象 一 个 不 同 的 场景 。 拥 有 我 们 产品 目录 服务 的 ， 不 再 是 一 个 单一 的 、 物 理 
位 置 上 在 一 起 的 团队 ， 而 是 英国 和 印度 的 团队 都 在 积极 参与 对 服务 的 更 改 ， 也 就 是 对 服务 
拥有 共同 所 有 权 。 这 里 的 地 域 和 时 区 界限 ， 使 得 团队 之 间 非 常 难于 进行 细 粒 度 的 沟通 。 相 
反 ， 他 们 依靠 更 多 的 粗 粒度 的 沟通 ， 比 如 视频 会 议和 电子 邮件 。 这 种 情况 下 ， 一 个 英国 的 
团队 成 员 ， 想 要 充满 信心 地 去 做 一 个 简单 的 重 构 有 多 困难 ?异地 分 布 式 团队 的 沟通 成 本 较 
高 ， 因 此 协调 变化 的 成 本 也 比较 高 。 


当 协 调 变化 的 成 本 增加 后 ， 有 一 件 事 情 会 发 生 : 人 们 要 么 想方设法 降低 协调 / 沟通 成 本 ， 
要 么 停止 更 改 。 而 后 者 正 是 导致 我 们 最 终 产生 庞大 的 、 难 以 维护 的 代码 库 的 原因 。 


我 记得 曾 参与 过 一 个 客户 的 项 目 ， 分 处 异地 的 两 个 团队 共享 单个 服务 的 所 有 权 。 最 终 ， 每 
个 团队 开始 处 理 专门 的 工作 。 这 允许 团队 至 少 对 代码 库 的 一 部 分 负责 ， 从 而 更 容易 地 修改 
代码 。 接 着 ， 团 队 间 会 有 更 多 关于 如 何 集 成 两 部 分 代码 的 粗 粒 度 的 沟通 ， 最 终 ， 与 组 织 结 
构 内 的 沟通 途径 匹配 所 形成 的 粗 粒 度 API， 形 成 了 代码 库 中 两 部 分 之 间 的 边界 。 


那么 ， 在 考虑 服务 如 何 演化 设计 方面 ， 这 个 例子 给 了 我 们 什么 样 的 启示 呢 ? 我 认为 ， 参 与 
创建 系统 的 开发 人 员 之 间 存 在 地 理 位 置 差异 ， 是 一 个 应 该 对 服务 进行 分 解 的 很 明显 的 信 
号 ， 一 般 来 说 ， 你 应 该 分 配 单个 服务 的 所 有 权 给 可 以 保持 低 成 本 变化 的 团队 。 


也 许 你 的 公司 决定 ， 在 另 一 个 国家 新 开 一 间 办 公 室 ， 通 过 这 种 方式 来 增加 项 目的 人 数 。 这 
个 时 候 ， 积 极 思 考 系 统 的 哪 部 分 可 以 移交 给 新 团队 。 也 许 适 应 沟通 途径 这 种 方式 ， 能 够 驱 
动 你 做 出 将 某 个 接 颖 拆 分 出 去 的 决定 。 


还 有 一 点 值得 一 提 ， 至 少 基于 之 前 引用 的 Exploring the Duality Between Product and 
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Organizational Architectures 的 作者 的 观察 ， 如 果 构 建 系 统 的 组 织 更 加 松 耦 合 〈 例 如， 由 异 
地 的 团队 组 成 )， 其 所 构建 的 系统 则 倾向 于 更 加 模块 化 ， 因 此 耦合 度 也 越 低 。 一 个 拥有 许 
多 服务 的 单个 团队 对 其 管理 的 服务 会 倾向 于 更 紧密 地 集成 ， 而 这 种 方式 在 分 布 式 组 织 中 是 
很 难 维护 的 。 


10.5 ”服务 所 有 权 


服务 所 有 权 是 什么 意思 呢 ? 一 般 来 说 ， 它 意味 着 拥有 服务 的 团队 负责 对 该 服务 进行 更 改 。 
只 要 更 改 不 破坏 服务 的 消费 者 ， 团 队 就 可 以 随时 重新 组 织 代 码 。 对 于 许多 团队 而 言 ， 所 有 
权 延 伸 到 服务 的 方方面面 ， 从 应 用 程序 的 需求 、 构 建 、 部 署 到 运 维 。 这 种 模式 在 微服 务 的 
世界 尤为 普遍 ， 一 个 小 团队 更 容易 负责 一 个 小 服务 。 所 有 权 程 度 的 增加 会 提高 自治 和 交付 
速度 。 团 队 需 要 自己 负责 部 署 和 维护 应 用 程序 ， 这 会 激励 团队 创建 出 易于 部 署 的 服务 ， 也 
就 是 说 ， 当 没有 人 能 够 接受 你 扔 出 去 的 东西 时 ， 也 就 不 用 担心 人 们 会 犯 “ 把 东西 扔 出 墙 ” 
这 种 错误 了 1 

当然 我 很 喜欢 这 种 模式 。 它 把 决定 权 交 给 最 合适 的 人 ， 赋 予 团队 更 多 的 权力 和 自治 ， 也 使 
其 对 工作 更 负责 。 我 见 过 太 多 太 多 的 开发 人 员 ， 把 系统 移交 给 测试 或 部 署 阶段 后 ， 就 认为 
他 们 的 工作 已 经 完成 了 。 


10.6 ”共享 服务 的 原因 


我 见 过 很 多 团队 采用 共享 服务 所 有 权 的 模式 。 不 过 我 发 现 这 种 方式 效果 不 佳 ， 原 因 之 前 已 
经 讨论 过 。 然 而 ， 理 解 人 们 为 何 选 用 共享 服务 的 原因 是 很 重要 的 ， 尤 其 是 当 我 们 能 够 找到 
一 些 令 人 信服 的 替代 模式 ， 来 解决 人 们 潜在 的 担忧 时 。 


10.6.1 难以 分 割 

很 显然 ， 拆 分 服务 的 成 本 太 高 是 多 个 团队 负责 单个 服务 的 原因 之 一 ， 你 的 组 织 或 许 看 不 到 
这 一 点 。 这 常见 于 大 型 的 单 块 系统 中 。 如 果 这 是 你 所 面临 的 主要 挑战 ， 那 么 我 希望 第 5 章 
的 一 些 建议 可 以 帮 到 你 。 你 也 可 以 考虑 将 团队 合并 在 一 起 ， 以 更 紧密 地 匹配 架构 本 身 。 


10.6.2 ”特性 团队 
特性 团队 〈 即 基于 特性 开发 的 团队 ) 的 想法 ， 是 一 个 小 团队 负责 开发 一 系列 特性 需要 的 所 
有 功能 ， 即 使 这 些 功能 需要 跨越 组 件 (其 至 服务 ) 的 边界 。 特 性 团队 的 目标 很 合理 。 这 种 
结构 促使 团队 保持 关注 在 最 终 的 结果 上 ， 并 确保 工作 是 集成 起 来 的 ， 避 免 了 跨 多 个 不 同 的 
团队 试图 协调 变化 的 挑战 。 


在 许多 情况 下 ， 特 性 团队 是 对 传统 的 IT 组 织 中 ， 团 队 结构 围绕 技术 边界 进行 组 织 的 一 种 
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人 和 修正。 例如， 你 可 能 有 一 个 团队 专门 负责 用 户 界面 ， 另 一 个 困 队 负责 应 用 程序 逻辑 ， 第 三 
个 团队 负责 处 理 数据 库 。 这 种 环境 下 ， 特 性 团队 迈 出 了 一 大 步 ， 它 跨越 所 有 层 提供 完整 的 
功能 。 


大 范围 地 采用 特性 团队 后 ， 所 有 服务 都 是 共享 的 。 每 个 人 都 可 以 改变 任意 一 个 服务 ， 任 意 
一 段 代 码 。 在 这 种 情况 下 ， 服 务 守护 者 的 角色 如 果 还 存在 的 话 ， 会 变 得 复杂 得 多 。 不 幸 的 
是 ， 采 用 这 种 模式 后 我 很 少 看 到 守护 者 ， 这 会 导致 我 们 前 面 讨论 的 种 种 问题 。 


但 是 ， 让 我 们 再 考虑 一 下 什么 是 微服 务 : 服务 会 根据 业务 领域 ,而 不 是 技术 进行 建 模 。 
如 果 负 责 某 个 微服 务 的 团队 与 业务 领域 相 匹配 ， 则 它 更 容易 保持 对 客户 的 关注 ， 也 更 容 
易 进 行 以 特性 为 导向 的 开发 ， 因 为 它 对 服务 相关 的 所 有 技术 有 一 个 全 面 的 了 解 并 且 拥 有 
所 有 权 。 


当然 ， 也 会 出 现 横 跨 多 个 服务 的 特性 ， 但 由 于 我 们 避免 技术 导向 的 团队 ， 这 种 可 能 性 会 大 
大 降低 。 


10.6.3 ”交付 瓶颈 


共享 服务 的 另 一 个 关键 原因 是 ， 这 样 做 可 以 避免 交付 瓶颈 。 如 果 某 个 服务 突然 出 现 了 大 量 
的 变更 需求 怎么 办 ? 想象 一 下 ， 我 们 要 推出 一 个 功能 ， 让 客户 能 够 在 所 有 的 产品 中 看 到 单 
个 音 轨 的 风格 ， 以 及 添加 一 个 全 新 类 型 的 铃声 : 手机 的 虚拟 音乐 铃声 。 网 站 团队 需要 改变 
界面 样式 的 信息 ， 而 移动 应 用 程序 团队 需要 让 用 户 能 够 浏览 、 预 览 和 购买 铃声 。 这 两 个 需 
求 都 需要 更 改 产品 目录 服务 ,但 不幸 的 是 ， 团 队 的 一 半 成 员 感染 了 流感 ， 而 另 一 半 被 困 在 
了 生产 环境 上 的 故障 诊断 中 。 


不 共享 服务 ， 我 们 有 几 种 方式 来 应 对 这 种 情况 。 第 一 种 方式 就 是 等 待 。 网 站 和 移动 应 用 程 
序 团队 转 而 开发 别 的 功能 。 取 决 于 特性 的 重要 性 和 延迟 的 时 长 ， 这 可 能 是 个 好 的 主意 ， 但 
也 可 能 是 一 个 精 糕 的 想法 。 


另 一 种 方式 是 ， 你 可 以 派 人 到 产品 目录 团队 帮助 他 们 更 快 地 工作 。 你 的 系统 使 用 越 标准 化 
的 技术 栈 和 编程 范式 ， 就 越 容易 让 其 他 人 更 改 你 的 服务 。 当 然 ， 另 一 方面 ， 如 前 文 所 述 ， 
标准 化 会 导致 团队 降低 采取 正确 的 解决 方案 来 解决 问题 的 能 力 ， 并 可 能 会 降低 效率 。 而 
且 ， 如 果 该 团队 在 地 球 的 另 一边 ， 这 也 是 不 可 能 的 。 


另 一 个 选择 是 ， 把 产品 目录 拆 分 成 一 般 音乐 目录 和 铃声 目录 两 个 服务 。 如 果 支 持 铃声 的 工 
作 量 非常 小 ， 而 我 们 未 来 在 这 一 领域 工作 的 可 能 性 也 很 低 ， 这 个 选择 可 能 是 不 成 熟 的 。 另 
一 方面 ， 如 果 铃 声 相关 的 功能 累积 有 10 周 的 工作 量 ， 拆 分 出 服务 ， 并 且 让 移动 团队 拥有 
所 有 权 ， 可 能 还 是 有 意义 的 。 


不 过 ， 还 有 另 一 种 模式 可 以 很 好 地 工作 。 
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10.7 ”内 部 开源 


那么 ， 如 采 我 们 已 经 尽 了 最 大 的 努力 ， 仍 然 无 法 找到 方法 来 避免 共享 儿 个 服务 该 怎么 办 ? 
在 这 个 时 候 ， 拥 抱 内 部 开源 模式 可 能 更 合理 。 


标准 的 开源 项 目 中 ， 一 小 部 分 人 被 认为 是 核心 提交 者 ， 他 们 是 代码 的 守护 者 。 如 果 你 想 修 
改 一 个 开源 项 目 ， 要 么 让 一 个 提交 者 帮 你 修改 ， 要 么 你 自己 修改 ， 然 后 提交 给 他 们 一 个 
pull 请 求 。 核 心 的 提交 者 对 代码 库 负责 ， 他 们 是 代码 库 的 所 有 者 。 


在 组 织 内 部 ， 这 种 模式 也 可 以 很 好 地 工作 。 也 许 最 初 在 服务 上 工作 的 人 ， 不 再 跟 团 队 在 一 
起 了 ， 也 许 他 们 现在 分 散在 组 织 的 不 同 地 方 。 好 吧 ， 如 果 他 们 仍然 具备 提交 的 权限 ， 你 可 
以 找到 他 们 并 寻求 帮助 ， 或 许 跟 他 们 结对 ， 或 者 如 果 你 有 合适 的 工具 ， 可 以 给 他 们 发 一 个 
pull 请 求 。 


10.7.1 守护 者 的 角色 

我 们 仍然 希望 得 到 高 质量 的 服务 。 我 们 想 要 体面 的 代码 质量 ， 服务 代码 的 组 织 方式 应 该 表 
现 出 某 种 一 致 性 。 我 们 也 要 确保 现在 的 更 改 不 会 让 未 来 计划 中 的 更 改变 得 更 加 困难 。 这 意 
味 着 ， 我 们 在 内 部 也 要 采用 跟 标 准 开 源 项 目 同样 的 模式 。 这 需要 分 离 出 一 组 受信 任 的 提交 
者 (核心 团队 ) 和 不 受信 任 的 提交 者 (团队 外 提交 变更 的 人 )。 


核心 团队 需要 对 更 改 有 某 种 程度 的 审批 。 它 需要 确保 所 有 的 更 改 符合 该 代码 库 的 惯例 ， 也 
就 是 遵循 跟 代 码 库 其 他 代码 一 致 的 编码 准则 。 因 此 ， 做 审批 的 人 不 得 不 花 时 间 在 提交 者 身 
上 ， 以 确保 得 到 高 质量 的 更 改 。 


好 的 守护 者 会 花费 大 量 的 精力 与 提交 者 进行 清晰 的 沟通 ， 并 对 他 们 的 工作 方式 进行 引导 。 
糟糕 的 守护 者 会 以 此 为 借口 ， 向 别人 发 号 施 令 ， 或 施加 类 似 宗教 战争 般 固 执 的 技术 决策 。 
这 两 种 行为 我 都 见 过 ， 我 可 以 明确 告诉 你 一 件 事 : 无 论 使 用 哪 种 方式 ， 都 需要 时 间 。 当 
考虑 允许 不 受信 赖 的 提交 者 提交 更 改 到 你 的 代码 库 时 ， 你 必须 做 出 决定 ， 专 门 设置 一 个 
守护 者 的 开销 是 否 值得 : 核心 团队 是 否 可 以 把 花费 在 审批 更 改 上 的 时 间 ， 用 在 更 有 意义 
的 事情 上 ? 


10.7.2 成 熟 

服务 越 不 稳定 或 越 不 成 熟 ， 就 越 难 让 核心 团队 之 外 的 人 提交 更 改 。 在 服务 的 核心 模块 到 位 
前 ， 团 队 可 能 不 知道 什么 样 的 代码 是 好 的 ， 因 此 也 很 难 知道 什么 是 一 个 好 的 提交 。 在 这 个 
阶段 ， 服 务 本 身 正 处 于 快速 变化 的 状态 。 

大 多 数 开源 项 目 在 完成 第 一 个 版 本 的 核心 代码 前 ， 往 往 不 允许 让 更 广泛 的 不 受信 任 的 提交 
者 们 提交 代码 。 在 我 们 自己 的 组 织 中 采用 类 似 的 方式 也 是 合理 的 。 如 果 一 个 服务 已 经 相当 
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成 熟 ， 而 且 很 少 改变 ， 比 如 购物 车 服务 ， 也 许 这 个 时 候 ， 才 是 开源 并 让 其 他 人 贡献 代码 的 
最 好 时 机 。 


10.7.3 工具 


为 了 更 好 地 支持 内 部 开源 模型 ， 你 需要 一 些 工具 。 使 用 支持 pull 请 求 (或 类 似 的 其 他 方 
式 ) 的 分 布 式 版 本 控制 工具 是 很 重要 的 。 根 据 组 织 的 大 小 ， 你 可 能 还 需要 支持 讨论 和 修改 
提交 申请 的 工具 ， 可 能 这 并 不 意味 着 需要 一 个 完整 的 代码 评审 系统 ， 但 将 评论 附 到 提交 申 
请 中 的 能 力 是 非常 有 用 的 。 最 后 ， 你 需要 让 提交 者 能 够 很 容易 地 构建 和 部 署 软件 以 供 他 人 
使 用 。 这 通常 需要 良好 的 构建 和 部 署 流水 线 ， 以 及 集中 构件 物 仓库 。 


10.8 限界 上 下 文 和 团队 结构 


如 前 文 所 述 ， 我 们 以 限界 上 下 文 来 定义 服务 的 边界 。 因 此 ， 我 们 希望 团队 也 与 限界 上 下 文 
保持 一 致 。 这 有 很 多 好 处 。 首 先 ， 团 队 会 发 现 它 在 限界 上 下 文 内 更 容易 掌握 领域 的 概念 ， 
因为 它们 是 相互 关联 的 。 甚 次， 限界 上 下 文中 的 服务 更 有 可 能 发 生 交互 ， 保 持 一 致 可 以 简 
化 系统 设计 和 发 布 的 协调 工作 。 最 后 ， 在 交付 团队 与 业务 干系 人 进行 交互 方面 ， 它 有 利于 
团队 与 此 领域 内 的 一 两 个 专家 创建 良好 的 合作 关系 。 


10.9 ”孤儿 服务 


那么 ， 如 何 处 理 不 再 活跃 维护 的 服务 呢 ? 当 我 们 迈 向 更 细 粒 度 的 架构 时 ， 服 务 本 身 变 得 
更 小 。 我 们 已 经 讨论 过 ， 小 服务 的 目标 之 一 是 使 它们 更 简单 。 功 能 较 少 的 简单 服务 ， 可 
能 在 很 长 一 段 时 间 内 不 需要 更 改 。 考 虑 不 起 眼 的 购物 车 服务 ， 它 提供 了 一 些 相 当 基 本 的 
功能 : 添加 到 购物 车 、 从 购物 车 删除 等 。 完 全 可 以 想象 ， 这 个 服务 从 第 一 次 实现 以 后 ， 
可 能 几 个 月 都 不 需要 更 改 ， 虽 然 其 他 的 服务 一 直 频 繁 地 更 改 。 这 时 候 会 发 生 什 么 ? 谁 拥 
有 这 个 服务 ? 


如 果 你 的 团队 结构 与 组 织 的 限界 上 下 文 是 一 致 的 ， 那 么 即使 是 修改 频率 很 低 的 服务 也 会 有 
实际 的 所 有 者 。 想 象 一 个 团队 与 网 上 客户 销售 的 限界 上 下 文 是 一 致 的 。 它 可 以 维护 网 站 、 
购物 车 和 推荐 服务 。 即 使 在 几 个 月 内 ， 购 物 车 服务 都 设 有 更 改 ， 如 果 要 更 改 的 话 ， 也 可 以 
很 自然 地 让 这 个 团队 负责 。 当 然 ， 微 服务 的 好 处 之 一 是 ， 当 团队 需要 更 改 该 服务 以 添加 新 
的 功能 但 很 难 修改 时 ， 重 写 这 个 服务 也 不 会 花 太 长 的 时 间 。 


还 有 ， 如 果 你 的 服务 采用 真正 的 多 语言 方案 ， 使 用 多 个 技术 栈 ， 那 么 当 你 的 团队 不 了 解 扳 
儿 服务 的 技术 栈 时 ， 那 么 更 改 它 的 挑战 可 能 会 加 大 。 
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10.10 ”案例 研究 : RealEstate.com.au 


REA 的 核心 业务 是 房地产 ， 但 包含 多 个 不 同 的 方面 ， 每 一 方面 都 是 一 条 业务 线 (Line Of 
Business，LOB)。 例 如 ， 一 条 业务 线 是 澳大利亚 的 住宅 房地产 销售 ， 而 另 一 条 业务 线 涉及 
REA 的 海外 业务 。 这 些 业 务 线 有 相关 联 的 交付 团队 (或 小 组 ) ;一些 可 能 只 有 一 个 团队 ， 
而 最 大 的 有 四 个 。 对 于 住宅 房地产 ， 有 多 个 团队 参与 创建 网 站 和 产品 目录 服务 ， 人 允许 人 们 
浏览 房 源 。 成 员 时 不 时 地 在 这 些 团队 之 间 轮 换 ， 但 往往 长 时 间 留 在 这 个 业务 线 , 以 确保 团 
队 成 员 可 以 更 好 地 建立 业务 线 的 领域 知识 。 反 过 来 ， 这 有 助 于 各 种 业务 干系 人 和 为 其 实现 
业务 功能 的 交付 团队 之 间 进 行 沟 通 。 


每 条 业务 线 团 队 ， 人 负责 自 己 创建 的 服务 的 整个 生命 周期 ， 包括 构建、 测试 、 发 布 和 运 维 ， 
甚至 弃 用 。 一 个 核心 交付 服务 团队 ， 为 这 些 团队 提供 建议 、 指 导 和 工具 来 帮助 他 们 完成 工 
作 。 浓 厚 的 自动 化 文化 非常 关键 ，REA 大 量 使 用 AWS， 关 键 原因 是 想 让 团队 更 加 自治 。 
图 10-1 说 明了 这 一 切 是 如 何 工作 的 。 








为 团队 提供 工具 和 指导 
图 10-1: Realestate.com.au 的 组 织 和 团队 结构 ， 和 架构 保持 一 致 





与 业务 相 一 致 的 不 仅仅 是 交付 团队 的 组 织 ， 还 包括 架构 ， 例 如 集成 方式 。 一 个 业务 线 内 ， 
服务 间 可 以 不 受 任何 限制 地 以 任何 方式 来 通信 ， 只 要 团队 确定 的 服务 守护 者 认为 合适 即 
可 。 但 是 在 业务 线 之 间 ， 所 有 通信 都 必须 是 异步 批 处 理 ， 这 是 非常 小 的 架构 团队 的 几 个 严 
格 的 规则 之 一 。 这 种 粗 粒 度 的 通信 与 不 同业 务 之 间 的 粗 粒 度 的 通信 和 是 匹配 的 。 坚 持 异 步 批 
处 理 ， 每 条 业务 线 在 自身 的 行为 和 管理 上 有 很 大 的 自由 度 。 它 可 以 随时 停止 其 服务 ， 只 要 
能 满足 其 他 业务 线 的 批量 集成 ， 以 及 自己 业务 干系 人 的 需求 ， 那 么 没有 人 会 在 意 。 
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这 种 结构 不 仅 使 团队 ， 也 让 不 同 的 业务 实现 了 很 好 的 自治 性 。 几 年 前 REA 只 有 少量 的 几 
个 服务 ， 但 现在 已 经 拥有 数 百 个 服务 ， 数 量 比 项 目 人 员 还 多 , 而 且 还 在 以 迅猛 的 速度 增长 。 
拥抱 变化 的 能 力 成 功 地 帮助 公司 从 本 地 市 场 扩张 到 海外 市 场 。 而 且 ， 更 振奋 人 心 的 是 ,与 
项 目 组 成 员 交 流 后 留 给 我 的 印象 是 ， 现 在 的 架构 和 组 织 结构 只 是 最 新 的 版 本 ， 而 不 是 最 终 
的 目的 地 。 我 敢 说 五 年 后 ，REA 将 再 次 迎 然 不 同 。 


这 些 组 织 的 系统 架构 和 组 织 结构 对 变化 都 有 着 很 好 的 适应 性 ， 这 能 够 产生 巨大 的 效益 ， 因 
为 这 样 的 组 织 改进 了 团队 的 自治 性 ， 并 且 能 够 加 快 新 需求 和 新 功能 的 发 布 速度 。 很 多 组 织 
都 意识 到 ， 系 统 架 构 并 非 凭空 产生 的 ，REA 是 其 中 之 一 。 


10.11 反 向 的 康 威 定律 


到 目前 为 止 ， 我 们 已 经 谈论 过 组 织 是 如 何 影响 系统 设计 的 。 但 是 反 向 的 呢 ? 也 就 是 说 ， 
系统 设计 能 改变 组 织 吗 ? 虽然 我 没 能 找到 足够 充分 的 证 据 来 支持 这 一 想法 ， 但 确实 听 说 


过 一 些 。 


也 许 最 好 的 例子 是 我 多 年 前 为 其 工作 过 的 一 个 客户 。 当 时 ，Web 刚刚 起 步 ， 互 联网 就 像 是 
将 AOL 软盘 里 的 东西 送 货 上 门 ， 这 家 公司 是 一 个 大 型 印刷 公司 ， 有 一 个 小 网 站 。 它 有 网 
站 是 因为 曾经 想 做 这 个 事情 ， 但 是 与 许多 其 他 业务 相 比 ， 这 个 网 站 并 不 是 很 重要 。 当 创建 
原始 系统 时 ， 关 于 系统 如 何 工作 的 技术 决策 也 做 得 相当 随意 。 


这 个 系统 的 内 容 源 于 多 个 渠道 ， 但 大 部 分 来 自 供 公众 浏览 的 第 三 方 广告 。 系 统 有 一 个 输入 
子 系统 ， 允 许 付费 的 第 三 方 创建 内 容 ， 有 一 个 核心 子 系统 ， 得 到 输入 的 数据 并 以 各 种 形式 
来 充实 它 ， 最 后 还 有 一 个 输出 子 系统 ， 创 建 最 终 的 网 站 供 公 众 浏 览 。 


最 初 的 设计 决策 是 否 正确 已 属于 历史 学 家 间 的 对 话 ， 但 公司 多 年 来 改变 了 不 少 ， 我 和 很 多 
同事 都 开始 怀疑 该 系统 设计 是 否 符合 公司 的 现状 。 其 物理 打印 业务 已 经 明显 减弱 ， 收 入 急 
剧 减少 , 因此 目前 公司 的 主 营业 务 是 在 线 业 务 。 


当时 ， 我 们 看 到 公司 的 组 织 结构 与 系统 的 三 个 子 系统 严格 一 致 。 三 个 IT 方面 的 业务 线 或 
部 门 ， 分 别 对 应 输入 、 核 心 和 输出 子 系统 。 这 些 业务 线 都 有 单独 的 交付 团队 。 我 当时 并 没 
有 意识 到 ， 这 些 组 织 结构 没有 早 于 系统 设计 ， 反 而 是 根据 系统 设计 发 展 成 这 样 的 。 在 印刷 
业务 减少 时 ， 伴 随 着 数字 业务 的 增长 ， 系 统 设计 无 意 中 为 组 织 如 何 发 展 铺 好 了 道路 。 


最 后 ， 我 们 意识 到 ， 无 论 系统 有 什么 设计 缺陷 ， 我 们 都 不 得 不 通过 改变 组 织 结 构 来 推动 系 
统 的 更 改 。 许 多 年 后 ， 这 个 过 程 仍 然 在 进行 中 ! 
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10.12 人 
“不 管 一 开始 看 起 来 什么 样 ， 它 永远 是 人 的 问题 ，” 
一 一 杰 拉 尔 德 ， 温 伯 格 ， 咨 询 第 二 定律 


我 们 必须 承认 ， 在 微服 务 环境 中 ， 开 发 人 员 很 难 只 在 自己 的 小 世界 中 编写 代码 。 他 需要 意 
识 到 像 跨 网 络 边界 调用 及 隐 式 失败 等 隐 式 问题 。 我 们 还 讨论 过 微服 务 的 能 力 ， 它 让 尝试 新 
技术 更 为 容易 ， 从 数据 存储 到 编程 语言 。 但 如 果 你 从 一 个 单 块 系统 的 世界 走 来 ， 那 里 的 大 
多 数 开 发 人 员 只 需要 使 用 一 种 语言 ， 并 且 对 运 维 完全 没有 意识 ， 那 么 直接 把 他 们 扔 到 微服 
务 的 世界 ， 就 像 是 粗鲁 地 把 他 们 从 单纯 的 世界 中 叫 醒 一 样 。 


同样 ， 赋 权 给 开发 团队 以 增加 自治 也 是 充满 挑战 的 。 过 去 的 人 们 习惯 把 工作 扔 给 别人 ， 习 
惯 指责 别人 ， 现 在 让 他 们 对 自己 的 工作 完全 负责 可 能 会 让 其 感觉 不 舒服 。 你 甚至 会 发 现 ， 
让 开发 人 员 携 带 寻 呼 机 ， 以 防 系统 需要 他 们 的 支持 时 ， 都 会 有 合同 壁垒 ! 


尽管 这 本 书 主要 是 关于 技术 的 ， 但 是 人 的 问题 也 绝 不 只 是 一 个 次 要 问题 ， 他 们 是 你 现在 拥 
有 系统 的 构建 者 ， 并 将 继续 构建 系统 的 未 来 。 不 考虑 当前 员工 的 感受 ,或 不 考虑 他 们 现 有 
的 能 力 来 提出 一 个 该 如 何 做 事 的 设想 ， 有 可 能 会 导致 一 个 精 糕 的 结果 。 


关于 这 个 话题 ， 每 个 组 织 都 有 自己 的 节奏 。 了 解 你 的 员工 能 够 承受 的 变化 ， 不 要 到 他 们 改 
变 太 快 ! 也 许 在 短 时 间 内 ， 你 仍然 需要 一 个 单独 的 团队 来 处 理 线 上 支持 或 生产 环境 部 署 ， 
以 便 给 开发 人 员 足 够 的 时 间 调 整 到 新 的 实践 中 。 然 而 ， 你 可 能 不 得 不 接受 ,需要 组 织 中 不 
同人 的 参与 才能 搞定 这 个 工作 。 无 论 方法 是 什么 ， 你 需要 跟 员工 清楚 地 阐明 ， 在 微服 务 的 
世界 里 每 个 人 的 责任 ， 以 及 为 何 这 些 责任 如 此 重要 。 这 能 够 帮助 你 了 解 技能 差距 并 思考 如 
何 弥补 它们 。 对 许多 人 来 说 ， 这 将 是 一 个 非常 可 怕 的 旅程 。 请 记 住 ， 如 果 没 有 把 人 们 拉 到 
一 条 船上 ， 你 想 要 的 任何 变化 从 一 开始 就 注定 会 失败 。 


10.13 ”小结 


康 威 定律 强调 了 试图 让 系统 设计 跟 组 织 结构 不 匹配 所 导致 的 危险 。 这 引导 我 们 试图 将 服务 
所 有 权 与 同 地 团队 相 匹配 ， 而 两 者 本 身 与 组 织 限界 上 下 文 是 匹配 的 。 当 两 者 不 一 致 时 ， 我 
们 会 得 到 本 章 所 阐述 的 那些 摩擦 点 。 认 识 到 两 者 之 间 的 联系 ， 我 们 要 确保 正在 构建 的 系统 
对 组 织 而 言 是 合理 的 。 


我 们 这 里 讲 的 所 有 内 容 ， 都 会 涉及 组 织 规模 化 后 的 挑战 。 当 我 们 的 系统 开始 扩大 规模 ， 不 
再 是 几 个 分 散 的 服务 时 ， 还 需要 担心 其 他 一 些 技术 方面 的 考虑 。 接 下 来 我 们 会 阐述 这 方面 
的 内 容 。 
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第 11 章 


规模 化 微服 务 





当 你 处 理 书 中 的 小 例子 时 ， 一 切 似乎 都 很 简单 ， 但 现实 世界 要 复杂 得 多 。 当 我 们 的 微服 务 
架构 从 刚 开 始 的 简单 变 得 复杂 后 ， 会 发 生 什么 呢 ? 当 我 们 不 得 不 处 理发 生 故 障 的 多 个 独立 
服务 ， 或 管理 数 以 百 计 的 服务 时 ， 该 怎么 办 呢 ? 当 微服 务 的 数量 比 人 还 多 时 ， 有 什么 应 对 
的 模式 吗 ? 让 我 们 一 起 寻找 答案 吧 ! 


11.1 故障 无 处 不 在 


我 们 知道 事情 可 能 会 出 错 ， 硬盘 可 能 会 损坏 ;软件 可 能 会 月 溃 。 任 何 读 过 “分 布 式 计算 
的 故障 ”(https://en.wikipedia.org/wiki/Fallacies_of_Distributed_Computing) 的 人 都 会 告诉 
尔 ， 网 络 也 是 不 可 靠 的 。 我 们 可 以 尽力 尝试 去 限制 引起 故障 的 因素 ， 但 达到 一 定 规 模 后 ， 
故障 难以 避免 。 例 如 ， 现 在 的 硬盘 比 以 往 任何 时 候 都 更 可 靠 ， 但 它们 最 终 也 会 损坏 。 你 的 
硬盘 越 多 ， 其 中 一 个 会 发 生 故 障 的 可 能 性 就 越 大 ;从 统计 学 来 看 ， 规 模 化 后 故障 将 成 为 必 
然 事件 。 


即使 有 些 人 不 必 考 虑 超大 规模 的 情况 ， 但 是 如 果 我 们 能 够 拥抱 故障 ， 那 么 就 能 够 游 丸 有 余 
地 管理 系统 。 例 如 ， 如 果 我 们 可 以 很 好 地 处 理 服务 的 故障 ， 那 么 就 可 以 对 服务 进行 原 地 升 
级 ， 因 为 计划 内 的 停机 要 比 计划 外 的 更 容易 处 理 。 


我 们 也 可 以 在 试图 阻止 不 可 避免 的 故障 上 少 花 一 点 时 间 ， 而 花 更 多 时 间 去 优雅 地 处 理 它 。 
我 很 惊讶 地 发 现 ， 许 多 组 织 使 用 流程 和 控制 来 试图 阻止 故障 的 发 生 ， 但 实际 上 很 少 花费 心 
思想 想 如 何 更 加 容易 地 在 第 一 时 间 从 故障 中 恢复 过 来 。 


假设 一 切 都 会 失败 ， 会 让 你 从 不 同 的 角度 去 思考 如 何 解 决 问题 。 
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许多 年 前 ， 我 在 谷歌 园区 待 过 一 段 时 间 ， 当 时 看 到 过 一 个 拥抱 故障 想法 的 例子 。 在 山 景 城 
一 栋 建筑 的 接待 区 里 ， 放 着 一 些 机 架 很 老 的 机 器 ， 好 像 做 展览 一 样 。 我 注意 到 两 件 事情 。 
首先 ， 这 些 服务 器 没有 放 在 服务 器 机 箱 里 ， 它 们 只 是 机 架 上 安插 的 儿 个 裸 主板 。 不 过 , 更 
加 引起 我 注意 的 事情 是 ， 硬 盘 竟 然 是 被 尼龙 搭 扣 给 扣 上 的 。 我 问 一 个 谷歌 员工 为 什么 要 这 
么 做 ， 他 说 :“ 哦 ， 硬 盘 总 是 坏 ， 我 们 不 想 被 它们 搞 砸 。 这 样 做 的 话 ， 只 需要 把 它们 拉 出 
来 再 扔 进 垃圾 桶 ， 然 后 用 尼龙 搭 扣 扣 上 一 个 新 的 。 


让 我 再 陈述 一 遍 : 规模 化 后 ， 即 使 你 买 最 好 的 工具 ， 最 昂贵 的 硬件 ， 也 无 法 避免 它们 会 发 
生 故 障 的 事实 。 因 此 ， 你 需要 假定 故障 会 发 生 。 如 果 以 这 种 想法 来 处 理 你 做 的 每 一 件 事 
情 ， 为 其 故障 做 好 准备 ， 那 么 就 会 做 出 不 同 的 权衡 。 如 果 你 知道 一 个 服务 器 将 会 发 生 故 
障 ， 系 统 也 可 以 很 好 地 应 对 ， 那 么 又 何必 在 阻止 故障 上 花 很 多 精力 呢 ? 为 什么 不 像 谷 歌 那 
样 ， 使 用 裸 主 板 和 一 些 便 宜 的 组 件 〈 一 些 尼 龙 搭 扣 ) ， 而 不 必 过 多 地 担心 单 节点 的 弹性 ? 


11.2 多少 是 太 多 


我 们 在 第 7 章 涉及 过 跨 功能 需求 这 一 话题 。 跨 功能 需求 就 是 ， 要 考虑 数据 的 持久 性 、 服 务 
的 可 用 性 、 吞 吐 量 和 服务 可 接受 的 延迟 等 这 些 方面 。 本 章 提 到 的 许多 技术 ， 以 及 在 其 他 地 
方 讨论 过 的 方法 ， 都 能 够 帮助 满足 这 些 需 求 ， 但 只 有 你 自己 知道 需求 本 身 到 底 是 什么 。 


有 一 个 自动 扩容 系统 ， 能 够 应 对 负载 增加 或 单 节点 的 故障 ， 这 可 能 是 很 棒 的 ， 但 对 于 一 个 
月 只 需 运 行 一 两 次 的 报告 系统 就 太 夸 张 了 ， 因 为 这 个 系统 ， 即 使 宕 机 一 两 天 也 没什么 大 不 
了 的 。 同 样 ， 搞 清楚 如 何 做 蓝 / 绿 部 署 ， 使 服务 在 升级 时 无 需 停机 ， 对 你 的 在 线 电子 商务 
系统 来 说 可 能 会 有 意义 ， 但 对 企业 内 网 的 知识 库 来 说 可 能 有 点 过 头 了 。 


了 解 你 可 以 容忍 多 少 故 障 ， 或 者 系统 需要 多 快 ， 取 决 于 系统 的 用 户 。 反 过 来 ， 这 会 帮助 你 
了 解 哪 些 技术 将 对 你 有 意义 。 也 就 是 说 ， 你 的 用 户 不 是 经 常 能 阐明 需求 到 底 是 什么 ， 所 以 
你 需要 通过 问 问 题 来 提取 正确 的 信息 ， 并 帮助 他 们 了 解 提供 不 同 级 别 服务 的 相对 成 本 。 


如 前 所 述 ， 服 务 不 同 ， 这 些 跨 功能 需求 也 不 一 样 ， 不 过 我 建议 你 定义 一 些 默认 的 跨 功能 需 
求 ， 然 后 在 特定 的 用 例 中 重 载 它们 。 当 考虑 是 否 以 及 如 何 扩展 你 的 系统 ， 以 便 更 好 地 处 理 
负载 或 故障 时 ， 首 先 请 尝试 理解 以 下 需求 。 


。 响应 时 间 / 延 迟 
各 种 操作 需要 多 长 时 间 ? 我 们 可 以 使 用 不 同 数量 的 用 户 来 测量 它 ， 以 了 解 负载 的 增加 会 
对 响应 时 间 造 成 什么 样 的 影响 。 鉴 于 网 络 的 性 质 ， 你 经 常会 遇 到 异常 值 ， 所 以 将 监控 的 
响应 目标 设置 成 一 个 给 定 的 百分比 是 很 有 用 的 。 目 标 还 应 该 包括 你 期 望 软件 处 理 的 并 发 
连接 /用户 数 。 所 以 ， 你 可 能 会 说 :“ 我 期 望 这 个 网 站 ， 当 每 秒 处理 200 个 并 发 连接 时 ， 
90% 的 响应 时 间 在 2 秒 以 内 。” 
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。 可 用 性 
你 能 接受 服务 出 现 故 障 吗 ? 这 是 一 个 24/7 服务 吗 ? 当 测 量 可 用 性 时 ， 有 些 人 喜欢 查看 
可 接受 的 停机 时 间 ， 但 这 个 对 调用 服务 的 人 又 有 什么 用 呢 ? 对 于 你 的 服务 ， 我 只 能 选择 
信赖 或 者 不 信赖 。 测 量 停机 时 间 ， 只 有 从 历史 报告 的 角度 才 有 用 。 


。 数据 持久 性 
多 大 比例 的 数据 丢失 是 可 以 接受 的 ?数据 应 该 保存 多 久 ? 很 有 可 能 每 个 案例 都 不 同 。 例 
如 ， 你 可 能 为 了 节省 空间 ， 选 择 将 用 户 会 话 的 日 志 只 保存 一 年 ， 但 你 的 金融 交易 记录 可 
能 需要 保存 很 多 年 。 


一 旦 有 这 些 需求 ， 你 就 会 想 要 一 种 方式 ， 系 统 性 地 持续 测量 。 例 如 ， 可 能 你 决定 使 用 性 
能 测试 ， 以 确保 系统 性 能 满足 可 接受 的 目标 ， 不 过 可 能 你 也 想 要 在 生产 环境 上 监控 这 些 
数据 。 


11.3 功能 降级 


构建 一 个 弹性 系统 ， 尤 其 是 当 功 能 分 散在 多 个 不 同 的 、 有 可 能 宕 掉 的 微服 务 上 时 ， 重 要 的 
是 能 够 安全 地 降级 功能 。 想 象 一 下 ， 我 们 电子 商务 网 站 上 的 一 个 标准 的 Web 页 面 。 要 把 网 
站 的 各 个 功能 组 合 在 一 起 ， 我 们 需要 几 个 微服 务 联合 发 挥 作用 。 一 个 微服 务 可 能 显示 出 售 
专辑 的 详细 信息 ， 另 一 个 显示 价格 和 库存 数量 。 我 们 还 需要 展示 购物 车 内 容 ， 这 可 能 是 另 
一 个 微服 务 。 现 在 ， 如 果 这 些微 服务 中 的 任何 一 个 宕 掉 ， 都 会 导致 整个 Web 页 面 不 可 用 ， 
那么 我 们 可 以 说 ， 该 系统 的 弹性 还 不 如 只 使 用 一 个 服务 的 系统 。 


我 们 需要 做 的 是 理解 每 个 故障 的 影响 ， 并 弄 清楚 如 何 恰当 地 降级 功能 。 如 果 购 物 车 服务 不 
可 用 ， 我 们 可 能 会 有 很 多 麻烦 ， 但 仍然 可 以 显示 列表 清单 页 面 。 也 许可 以 仅仅 隐藏 掉 购 物 
车 ， 将 其 替换 成 一 个 新 的 图 标 “马上 回来 ! ”。 


对 简单 的 单 块 应 用 程序 来 说 ， 我 们 不 需要 做 很 多 决定 。 系 统 不 是 好 的 ， 就 是 坏 的 。 但 对 于 
微服 务 架 构 ， 我 们 需要 考虑 更 多 微妙 的 情况 。 很 多 情况 下 ， 需 要 做 的 往往 不 是 技术 决策 。 
从 技术 方面 我 们 可 能 知道 ， 当 购物 车 宕 掉 了 有 哪些 处 理 方式 ， 但 除非 理解 业务 的 上 下 文 ， 
否则 我 们 不 知道 该 采取 什么 行动 。 比 如 ， 也 许 关 闭 整 个 网 站 ， 也 许 仍然 允许 人 们 浏览 物品 
目录 ， 也 许 把 用 户 界 面 上 的 购物 车 控件 变 成 一 个 可 下 订单 的 电话 号 码 。 对 于 每 个 使 用 多 个 
微服 务 的 面向 用 户 的 界面 ， 或 每 个 依赖 多 个 下 游 合 作者 的 微服 务 来 说 ， 你 都 需要 问 自 己 : 
“如 果 这 个 微服 务 宕 掉 会 发 生 什么 ? ”然后 你 就 知道 该 做 什么 了 。 


通过 思考 每 项 跨 功能 需求 的 重要 性 ， 我 们 对 自己 能 做 什么 有 了 更 好 的 定位 。 现 在 ， 让 我 们 
考虑 从 技术 方面 可 以 做 的 事情 ， 以 确保 当 故 障 发 生 时 可 以 优雅 地 处 理 。 
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11.4 ”架构 性 安全 措施 


有 一 些 模 式 ， 组 合 起 来 被 称 为 架构 性 安全 措施 ， 它 们 可 以 确保 如 果 事 情 真 的 出 错 了 ， 不 会 
引起 严重 的 级 联 影响 。 这 些 都 是 你 需要 理解 的 非常 关键 的 点 ， 我 强烈 建议 在 你 的 系统 中 把 
它们 标准 化 ， 以 确保 不 会 因为 一 个 服务 的 问题 导致 整个 系统 的 崩塌 。 我 们 很 快 将 看 到 应 该 
考虑 的 这 些 关键 的 安全 措施 ， 但 在 此 之 前 ， 我 想 分 享 一 个 简短 的 故事 ， 概 述 一 下 哪些 事情 
可 能 会 出 错 。 


我 曾 是 一 个 项 目的 技术 负责 人 ， 这 个 项 目 是 构建 一 个 在 线 的 分 类 广告 网 站 。 网 站 本 身 需 要 
处 理 相当 高 的 访问 量 ， 并 获得 了 大 量 的 业务 收入 。 如 图 11-1 所 示 ， 我 们 的 核心 应 用 程序 是 
处 理 一 些 分 类 广告 本 身 的 展示 ， 同 时 代理 调用 其 他 服务 以 提供 不 同类 型 的 产品 。 这 其 实 是 
一 个 绞 杀 者 应 用 的 例子 ， 新 系统 拦截 了 对 遗留 应 用 程序 的 调用 ， 并 逐渐 殖 代 它们 。 作 为 这 
个 项 目的 一 部 分 ， 也 要 逐步 把 这 些 遗 留 应 用 替换 掉 。 我 们 刚刚 迁移 了 访问 量 最 多 和 收益 最 
大 的 产品 ， 但 剩余 的 大 部 分 广告 仍 由 许多 旧 的 应 用 程序 提供 服务 。 无 论 是 这 些 应 用 程序 的 
搜索 数量 ， 还 是 获得 的 收益 ， 都 非常 大 。 





外 部 请 求 











图 11-1: 一 个 典型 的 新 广告 系统 绞 杀 遗留 系统 的 例子 


我 们 的 系统 已 经 运行 了 一 段 时 间 ， 并 且 在 一 个 不 小 的 负载 下 表现 良好 。 那 时 在 高 峰 期 ， 我 
们 每 秒 必须 处 理 大 约 6000~7000 个 请 求 ， 尽 管 大 部 分 请 求 已 经 被 应 用 程序 服务 器 前 的 反 向 
代理 缓存 了 ， 但 产品 搜索 的 〈 网 站 最 重要 的 方面 ) 绝 大 部 分 请 求 都 没有 被 缓存 ， 需 要 与 服 
务 器 有 一 个 完整 的 往返 通信 。 


一 天 ， 就 在 午餐 高 峰 前 ， 系 统 开始 变 慢 ， 然 后 逐渐 开始 访问 失败 。 我 们 在 新 的 核心 应 用 程 
序 上 有 某 种 程度 的 监控 ， 它 显示 每 个 应 用 程序 节点 的 CPU 都 达到 100% 的 峰值 ， 远 高 于 平 
常 的 、 即 使 是 高 峰 期 的 使 用 率 。 在 很 短 的 时 间 内 ， 整 个 网 站 宕 掉 了 。 


我 们 找到 了 问题 的 原因 ， 并 恢复 了 网 站 。 结 果 发 现 ， 下 游 的 一 个 广告 系统 ， 也 是 最 老 的 、 
平常 最 不 经 常 维护 的 系统 之 一 ， 开 始 响应 得 非常 缓慢 。 响 应 非常 缓慢 是 最 糟糕 的 故障 模式 
之 一 。 如 果 一 个 系统 宕 掉 了 ， 你 很 快 就 会 发 现 。 但 当 它 只 是 很 慢 的 时 候 ， 你 需要 等 待 一 
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段 时 间 ， 然 后 再 放弃 。 但 无 论 故 障 原因 是 什么 ， 我 们 创建 了 一 个 容易 被 故障 级 联 影响 的 系 
统 。 一 个 无 法 控制 的 下 游 服 务 ， 可 以 让 整个 系统 宕 掉 。 


当 一 个 团队 查看 下 游 系 统 的 问题 时 ， 其 余 的 人 开始 查看 我 们 的 应 用 程序 哪里 出 错 了 。 我 们 
发 现 了 几 个 问题 。 程 序 使 用 HTTP 连接 池 来 处 理 下 游 连接 。 连 接 池 本 身 的 线程 ， 已 经 设置 
了 当 用 HTTP 调用 下 游 服务 时 会 等 待 的 时 间 。 设 置 这 样 的 超时 本 身 很 好 ， 问 题 是 因为 缓慢 
的 下 游 系统 ， 所 有 的 worker 都 等 了 一 段 时 间 后 再 超时 。 当 它们 在 等 待 时 ， 更 多 的 请 求 发 送 
到 连接 池 要 求 worker 线程 。 因 为 没有 可 用 的 worker， 这 些 请 求 也 被 挂 起 。 我 们 正在 使 用 
的 连接 池 ， 原 来 确实 有 一 个 worker 等 待 的 超时 设置 ， 不 过 默认 是 禁用 的 ! 这 导致 了 一 个 超 
长 的 阻塞 线程 队列 。 我 们 的 应 用 程序 任何 时 候 遂 常 只 有 40 个 并 发 连接 。 上 述 情况 造成 在 
五 分 钟 内 连接 数量 达到 大 约 800 个 ， 这 最 终 导致 系统 宕 掉 。 


更 精 糕 的 是 ， 我 们 调用 这 个 出 问题 的 下 游 服 务 向 外 提供 的 功能 ， 只 有 低 于 5% 的 客户 在 使 
用 ,并 且 获 得 的 收入 比 这 个 比例 还 少 。 深 入 到 细 市 中 ， 我 们 发 现 ， 处 理 系 统 缓慢 要 比 处 理 
系统 快速 失败 困难 得 多 。 在 分 布 式 系统 中 ， 延 迟 是 致命 的 。 


即使 我 们 连接 池 的 超时 设置 是 正确 的 ， 所 有 的 出 站 请 求 还 是 共享 一 个 HTTP 连接 池 。 这 

味 着 ,即使 其 他 的 服务 很 健康 ， 一 个 缓慢 的 服务 就 可 能 耗 尽 所 有 可 用 的 worker。 最 后 ， 很 
明显 下 游 服 务 是 不 健康 的 ， 但 我 们 仍然 一 直 发 送 通信 。 在 这 种 情况 下 ， 这 意味 着 ， 实 际 上 
我 们 让 情况 变 得 更 糟糕 ， 下 游 服 务 都 没有 恢复 的 机 会 了 。 为 了 避免 这 种 情况 再 次 发 生 ， 我 
们 最 终 修复 了 以 下 三 个 问题 : 正确 地 设置 起 时， 实现 舱 壁 隔离 不 同 的 连接 凶 ， 并 实现 一 个 
断路 器 ， 以 便 在 第 一 时 间 避 免 给 一 个 不 健康 的 系统 发 送 调用 。 


11.5 反 爱 弱 的 组 织 


在 《 反 脆弱 》 一 书 中 ， 作 者 Nassim Taleb 认为 事物 实际 上 受益 于 失败 和 混乱 。Ariel Tseitlin 
用 这 个 概念 解释 反 脆弱 的 组 织 (http://queue.acm.org/detail.cftm?id=2499552) Netflix 是 如 何 
运作 的 。 


像 Netflix 完全 是 基于 AWS 的 基础 设施 一 样 ，Netflix 的 经 营 规 模 也 是 众所周知 的 。 这 两 个 
因素 意味 着 ， 它 必须 很 好 地 应 对 故障 。 实 际 上 Netflix 通过 引发 故障 来 确保 其 系统 的 容错 性 。 


一 些 公司 喜欢 组 织 游戏 日 ， 在 那天 系统 会 被 关 掉 以 模拟 故障 发 生 ， 然 后 不 同 团队 演练 如 何 
应 对 这 种 情况 。 我 在 谷歌 工作 期 间 ， 在 各 种 不 同 的 系统 中 都 能 遇 到 这 种 活动 ， 并 且 我 认 
为 经 常 组 织 这 类 演练 对 于 很 多 公司 来 说 都 是 有 益 的 。 谷 歌 比 简单 的 模拟 服务 器 故障 更 进 
一 步 ， 作 为 年 度 DiRT (Disaster Recovery Test， 灾 难 恢复 测试 ，http://queue.acm.org/detail. 
cftm?id=2371516) 演习 的 一 部 分 ， 它 其 至 模拟 地 震 等 大 规模 的 自然 灾害 。Netflix 也 采用 了 
更 积极 的 方式 ， 每 天 都 在 生产 环境 中 通过 编写 程序 引发 故障 。 


这 些 项 目 中 最 著名 的 是 混乱 猴子 (Chaos Monkey)， 在 一 天 的 特定 时 段 随机 停 掉 服务 器 
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或 机 器 。 知 道 这 可 能 会 发 生 在 生产 环境 ， 意 味 着 开发 人 员 构建 系 统 时 不 得 不 为 它 做 好 准 
备 。 混 乱 猴 子 只 是 Netflix 的 故障 机 器 人 猴子 军队 (Simian Army) 的 一 部 分 。 混 乱 大 狸 
猩 (Chaos Gorilla) 用 于 随机 关闭 整个 可 用 区 (AWS 中 对 数据 中 心 的 叫 法 )， 而 延迟 猴 
子 (Latency Monkey) 在 系统 之 间 注 入 网 络 延 迟 。Netflix 已 使 用 开源 代码 许可 证 (https:/ 
github.com/Netflix/SimianArmy) 开源 了 这 些 工具 。 对 许多 人 来 说 ， 你 的 系统 是 否 真 的 健壮 
的 终极 验证 是 ， 在 你 的 生产 环境 上 释放 自己 的 猴子 军队 。 


通过 让 软件 拥抱 和 引发 故障 ， 并 构建 系统 来 应 对 ， 这 只 是 Nettlix 做 的 一 部 分 事情 。 它 还 知道 
当 失 败 发 生 后 从 失败 中 学 习 的 重要 性 ， 并 在 错误 真正 发 生 时 采用 不 指责 文化 。 作 为 这 种 学 习 
和 演化 过 程 的 一 部 分 ， 开 发 人 员 被 进一步 授权 ， 他 们 每 个 人 都 需要 负责 管理 他 的 生产 服务 。 


通过 引发 故障 ， 并 为 其 构建 系统 ，Netflix 已 经 确保 它 的 系统 能 够 更 好 地 规模 化 以 及 支持 其 
客户 的 需求 。 


不 是 每 个 人 都 需要 做 到 像 谷 歌 或 Netflix 那样 极致 ， 但 重要 的 是 ， 理 解 分 布 式 系统 所 需 的 思 
维 方式 上 的 转变 。 事 情 将 会 失败 。 你 的 系统 正 分 布 在 多 台 机 器 上 (它们 会 发 生 故 障 )， 通 
过 网 络 ( 它 也 是 不 可 靠 的 ) 通信 ， 这 些 都 会 使 你 的 系统 更 脆弱 ， 而 不 是 更 健壮 。 所 以 ,无 
论 你 是 否 打算 提供 像 谷歌 或 Netflix 那样 规模 化 的 服务 ， 在 分 布 式 架构 下 ， 准 备 好 如 何 应 对 
各 种 故障 的 发 生 是 非常 重要 的 。 那 么 我 们 需要 做 什么 来 应 对 系统 故障 呢 ? 


11.5.1 超时 
超时 是 很 容易 被 忽视 的 事情 ， 但 在 使 用 下 游 系 统 时 ， 正 确 地 处 理 它 是 很 重要 的 。 在 考虑 下 
游 系统 确实 已 经 宕 掉 之 前 ， 我 需要 等 待 多 长 时 间 ? 


如 果 等 待 太 长 时 间 来 决定 调用 失败 ， 整 个 系统 会 被 拖 慢 。 如 果 超 时 太 短 ， 你 会 将 一 个 可 能 
还 在 正常 工作 的 调用 错 认为 是 失败 的 。 如 果 完 全 没有 超 ， 一 个 宕 掉 的 下 游 系统 可 能 会 让 整 
个 系统 挂 起 。 


给 所 有 的 跨 进 程 调用 设置 超时 ， 并 选择 一 个 默认 的 超时 时 间 。 当 超时 发 生 后 ， 记 录 到 日 志 
里 看 看 发 生 了 什么 ， 并 相应 地 调整 它们 。 


11.5.2 断路 器 


在 自己 家 里 ， 断 路 器 会 在 电流 尖峰 时 保护 你 的 电子 设备 。 如 果 出 现 尖 峰 ， 断 路 器 会 切断 电 
路 ， 保 护 你 昂贵 的 家 用 电器 。 你 也 可 以 手动 使 用 断路 器 切断 家 里 的 部 分 电源 ， 让 电器 安全 
地 工作 。Michael Nygard 在 Release 1t! 一 书 中 ， 介 绍 了 使 用 同样 的 想法 作为 软件 的 保护 机 
制 会 产生 奇妙 的 效果 。 


想 想 我 们 之 前 分 享 的 故事 。 下 游 的 遗留 广告 应 用 程序 在 最 终 返 回 错误 之 前 ， 响 应 非常 慢 。 
即使 我 们 正确 地 设置 超时 ， 也 需要 等 待 很 长 时 间 才 能 得 到 错误 。 接 着 我 们 等 下 次 请 求 进 
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来 时 将 再 次 尝试 ， 同 样 等 待 。 下 游 服 务 发 生 故 障 已 经 够 粳 糕 的 了 ， 它 还 让 我 们 的 系统 变 


得 很 慢 。 


使 用 断路 器 时 ， 当 对 下 游资 源 的 请 求 发 生 一 定数 量 的 失败 后 ， 断 路 器 会 打开 。 接 下 来 ， 所 
有 的 请 求 在 断路 器 打开 的 状态 下 ， 会 快速 地 失败 。 一 段 时 间 后 ， 客 户 端 发 送 一 些 请 求 查看 
下 游 服 务 是 否 已 经 恢复 ， 如 果 它 得 到 了 正常 的 响应 ， 将 重 置 断路 器 。 你 可 以 在 图 11-2 中 看 


到 这 个 过 程 的 概述 。 








请 求 开始 超时 
1. 请 求 开始 失败 或 返回 错误 码 






当 达 到 一 定 阔 值 时 
2. 断路 器 打开 停止 发 送 通信 





请 求 快速 失败 


; 尖 健 康 检查 。。。 偶尔 发 送 健康 检查 ， 
“和 和 看 看 下 游 系统 是 否 已 估 复 


当 达 到 健康 的 
4. 断路 器 重 置 阅 值 时 重 置 连接 




















11-2: 断路 器 的 概述 


一 
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如 何 实现 断路 器 依赖 于 请 求 失败 的 定义 ， 但 当 使 用 HTTP 连接 实现 它们 时 ， 我 会 把 超时 或 
5XX 的 HTTP 返回 码 作为 失败 的 请 求 。 通 过 这 种 方式 ， 当 一 个 下 游资 源 宕 掉 ， 或 超时 ， 或 
返回 错误 码 时 ， 达 到 一 定 园 值 后 ， 我 们 会 自动 停止 向 它 发 送 通信 ， 并 启动 快速 失败 。 当 它 
恢复 健康 后 ， 我 们 会 自动 重新 发 送 请 求 。 


正确 地 设置 断路 器 会 有 点 棘手 。 你 不 想 太 轻易 地 启动 断路 器 ， 也 不 想 花 太 多 时 间 来 启动 。 
同样 ， 你 要 确保 在 下 游 服 务 真正 恢复 健康 后 才 发 送 通信 。 跟 超时 一 样 ， 我 会 选取 一 些 合 理 
的 默认 值 并 在 各 处 使 用 ， 然 后 在 特定 的 情况 下 调整 它们 。 


当 断 路 器 断 开 后 ， 你 有 一 些 选项 。 其 中 之 一 是 堆积 请 求 ， 然 后 稍 后 重 试 它们 。 对 于 一 些 场 
景 ， 这 可 能 是 合适 的 ， 特 别 是 你 所 做 的 工作 是 异步 作业 的 一 部 分 时 。 然 而 ， 如 果 这 个 调用 
作为 同步 调用 链 的 一 部 分 ， 快 速 失败 可 能 更 合适 。 这 意味 着 ， 沿 调用 链 向 上 传播 错误 ， 或 
更 微妙 的 降级 功能 。 


如 果 我 们 有 这 种 机 制 ( 如 家 里 的 断路 器 )， 就 可 以 手动 使 用 它们 ， 以 使 所 做 的 工作 更 加 安 
人 全。 例如， 如果 作为 日 常 维护 的 一 部 分 ， 我 们 想 要 停 用 一 个 微服 务 ， 可 以 手动 启动 依赖 它 
的 所 有 系统 的 断路 器 ， 使 它们 在 这 个 微服 务 失效 的 情况 下 快速 失败 。 一 旦 微服 务 恢复 ,我 
们 可 以 重 置 断路 器 ， 让 一 切 都 恢复 正常 。 


11.5.3 舱 壁 


Nygard 在 Release 1t! 中 ， 介 绍 了 男 一 种 模式 舱 壁 (bulkhead)， 是 把 自己 从 故障 中 隔离 
开 的 一 种 方式 。 在 航运 领域 ， 舱 壁 是 船 的 一 部 分 ， 合 上 舱 口 后 可 以 保护 船 的 其 他 部 分 。 所 
以 如 果 船 板 穿 透 之 后 ， 你 可 以 关闭 舱 壁 门 。 如 果 失 去 了 船 的 一 部 分 ， 但 其 余 的 部 分 仍 完好 
无 损 。 


在 软件 架构 术语 中 ， 有 很 多 不 同 的 舱 壁 可 供 我 们 考虑 。 结 合 我 自己 的 经 历 ， 实 际 上 我 错过 
了 使 用 舱 壁 的 机 会 。 我 们 应 该 为 每 个 下 游 服务 的 连接 使 用 不 同 的 连接 了 地 。 这 样 的 话 ， 正 如 
我 们 在 图 11-3 看 到 的 ， 如 果 一 个 连接 池 被 用 尽 ， 其 余 连 接 并 不 受 影响 。 这 可 以 确保 ， 如 果 
下 游 服务 将 来 运行 缓慢 ， 只 有 那 一 个 连接 凶 会 受 影响 ， 其 他 调用 仍 可 以 正常 进行 。 

关注 点 分 离 也 是 实现 舱 壁 的 一 种 方式 。 通 过 把 功能 分 离 成 独立 的 微服 务 ， 减 少 了 因为 一 个 
功能 的 宕 机 而 影响 另 一 个 的 可 能 性 。 

看 看 你 的 系统 所 有 可 能 出 错 的 方面 ， 无 论 是 微服 务 内 部 还 是 微服 务 之 间 。 你 手 涉 有 舱 壁 可 
以 使 用 吗 ? 我 建议 ， 至 少 为 每 个 下 游 连接 建立 一 个 单独 的 连接 池 。 不 过 ， 你 可 能 想 要 更 进 
一 步 ， 也 考虑 使 用 断路 器 。 

我 们 可 以 把 断路 器 看 作 一 种 密封 一 个 舱 壁 的 自动 机 制 ， 它 不 仅 保护 消费 者 免 受 下 游 服 务 问 
题 的 影响 ， 同 时 也 使 下 游 服务 避免 更 多 的 调用 ， 以 防止 可 能 产生 的 不 利 影 响 。 鉴 于 级 联 故 
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障 的 危险 ， 我 建议 对 所 有 同步 的 下 游 调 用 都 使 用 断路 器 。 当 然 ， 不 需要 重新 创造 你 自己 
的 断路 器 。Netflix 的 Hystrix 库 (https://github.com/Netflix/Hystrix) 是 一 个 基于 JVM 的 断 
路 器 ， 附 带 强大 的 监控 。 还 有 其 他 的 基于 不 同 技术 栈 的 断路 器 实现 ， 比 如 .NET 的 Polly 
(https://github.com/App-vNext/Polly)， 或 Ruby 的 circuit_breaker mixin (https://github.com/ 


wsargent/circuit_breaker ) 。 




















图 11-3: 每 个 下 游 服 务 一 个 连接 池 ， 以 提供 舱 壁 


在 很 多 方面 ， 舱 壁 是 三 个 模式 里 最 重要 的 。 超 时 和 断路 器 能 够 帮助 你 在 资源 受 限时 释放 它 
们 ， 但 舱 壁 可 以 在 第 一 时 间 确 保 它们 不 成 为 限制 。 例 如 ，Hystrix 允许 你 在 一 定 条 件 下 ， 实 
现 拒 绝 请 求 的 舱 壁 ， 以 避免 资源 达到 饱和 ， 这 被 称 为 减 载 (load shedding)。 有 时 拒绝 请 求 
是 避免 重要 系统 变 得 不 堪 重 负 或 成 为 多 个 上 游 服务 瓶颈 的 最 佳 方法 。 


11.5.4 ”隔离 

一 个 服务 越 依 赖 于 另 一 个 ， 另 一 个 服务 的 健康 将 越 能 影响 其 正常 工作 的 能 力 。 如 果 我 们 
使 用 的 集成 技术 允许 下 游 服务 器 离线 ， 上 游 服务 便 不 太 可 能 受到 计划 内 或 计划 外 宕 机 的 
影响 。 

服务 间 加 强 隔 离 还 有 另 一 个 好 处 。 当 服务 间 彼 此 隔离 时 ， 服 务 的 拥有 者 之 间 需 要 更 少 的 协 
调 。 团 队 间 的 协调 越 少 ， 这 些 团 队 就 更 自治 ， 这 样 他 们 可 以 更 自由 地 管理 和 演化 服务 。 


11.6 帘 等 


对 乱 等 操作 来 说 ， 其 多 次 执行 所 产生 的 影响 ， 均 与 一 次 执行 的 影响 相同 。 如 果 操 作 是 徊 等 
的 ， 我 们 可 以 对 其 重复 多 次 调用 ， 而 不 必 担 心 会 有 不 利 影响 。 当 我 们 不 确定 操作 是 否 被 执 
行 ， 想 要 重新 处 理 消 息 ， 从 而 从 错误 中 恢复 时 ， 需 等 会 非常 有 用 。 


让 我 们 考虑 一 个 简单 调用 的 例子 ， 当 客户 下 一 个 订单 后 给 他 增加 一 些 积分 。 我 们 以 示例 
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11-1 所 示 的 负载 发 起 这 个 调用 。 
示例 11-1: 给 一 个 账户 增加 积分 


<credit> 
<amount>100</amount> 
<forAccount>1234</account> 
</credit> 


如 果 多 次 收 到 这 个 调用 ， 我 们 会 多 次 增加 100 点 。 因 此 ， 按 照 这 种 情况 ， 这 个 调用 不 是 略 
等 的 。 然 而 ， 如 示例 11-2 所 示 ， 当 有 更 多 的 信息 后 ， 我 们 就 可 以 让 积分 账户 把 这 次 调用 变 
成 茵 等 操作 。 


示例 11-2: 添加 更 多 的 信息 使 这 个 调用 变 成 富 等 操作 。 
<credit> 
<amount>100</amount> 
<forAccount>1234</account> 
<reason> 
<forpurchase>4567</forpurchase> 
</reason> 
</credit> 


现在 我 们 知道 ， 这 次 信用 与 一 个 特定 的 订单 4567 相关 。 假 如 一 个 给 定 的 订单 只 能 获得 唯 
一 的 积分 ， 我 们 可 以 在 不 增加 总 积分 的 情况 下 ， 再 次 应 用 这 个 积 


这 种 机 制 在 基于 事件 的 协作 中 也 会 工作 得 很 好 ， 尤 其 是 当 你 有 多 个 相同 类 型 的 服务 实例 都 
订阅 同一 个 事件 时 ， 会 非常 有 用 。 即 使 我 们 存储 了 哪些 事件 被 处 理 过 ， 在 某 些 形式 的 异步 
消息 传递 中 ， 可 能 还 留 有 小 窗口 ， 两 个 worker 会 看 到 相同 的 信息 。 通 过 以 需 等 方式 处 理 这 
些 事件 ， 我 们 确保 不 会 导致 任何 问题 。 


有 些 人 太极 端 化 这 一 概念 ， 认 为 它 意味 着 ， 后 续 的 调用 如 果 使 用 相同 的 参数 ， 对 系统 不 会 
有 任何 的 影响 ， 这 让 我 们 处 在 一 个 有 趣 的 位 置 。 例 如 ， 我 们 仍然 希望 记录 调用 的 发 生 及 其 
响应 时 间 到 日 志 中 ， 以 收集 这 个 数据 来 做 监控 。 这 里 的 关键 点 是 ， 我 们 认为 那些 业务 操作 
是 过 等 的 ， 而 不 是 整个 系统 状态 的 。 

有 些 HTTP 动词 ， 例 如 GET 和 PUT， 在 HTTP 规范 里 被 定义 成 血 等 的 ， 但 要 让 这 成 为 事 
实 ， 依 赖 于 你 的 服务 在 处 理 这 些 调用 时 是 否 使 用 了 知 等 方式 。 如 果 使 用 了 这 些 动 词 ， 但 操 
作 不 是 壤 等 的 ， 然 而 调用 者 认为 它们 可 以 安全 地 重复 执行 ， 你 可 能 会 让 自己 陷入 困境 。 记 
住 ， 仅 仅 因为 你 使 用 HTTP 作为 底层 协议 ， 并 不 意味 着 就 可 以 免费 得 到 它 提 供 的 一 切 好 处 。 


11.7 扩展 


一 般 来 说 ， 我 们 扩展 系统 的 原因 有 以 下 两 个 。 首 先 ， 为 了 帮助 处 理 失 败 ， 如 果 我 们 担心 有 
些 东西 会 失败 ， 那 么 多 一 些 这 些 东 西 会 有 帮助 ， 对 吗 ? 其 次 ， 我 们 为 性 能 扩展 ， 无 论 是 处 
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理 更 多 的 负载 、 减 少 延 迟 或 两 者 兼 而 有 之 。 让 我 们 看 一 些 常 见 的 通用 扩展 技术 ， 并 思考 如 
何 将 它们 应 用 于 微服 务 架 构 中 。 


11.7.1 更 强大 的 主机 

一 些 操作 可 能 受益 于 更 强大 的 主机 。 一 个 有 着 更 快 的 CPU 和 更 好 的 IO 的 机 器 ， 通常 可 以 
改善 延迟 和 吞吐 量 ， 人 允许 你 在 更 短 的 时 间 内 处 理 更 多 的 工作 。 这 种 形式 的 扩展 通常 被 称 为 
重 直 扩展 ， 它 是 非常 昂贵 的 ， 尤 其 是 当 你 使 用 真正 的 大 机 器 时 。 有 时 一 个 大 服务 器 的 成 本 
要 比 两 个 稍 小 服务 器 的 成 本 高 ， 虽 然 两 者 联合 起 来 的 总 性 能 与 大 服务 器 相同 。 不 过 ， 有 时 
我 们 的 软件 本 身 ， 当 有 更 多 额外 的 可 用 硬件 资源 时 并 不 能 做 得 更 好 。 大 机 器 通常 给 我 们 更 
多 的 CPU 内 核 ， 但 如 果 写 的 软件 没有 充分 利用 它们 也 是 不 够 的 。 另 一 个 问题 是 ， 这 种 形 
式 的 扩展 无 法 改善 我 们 服务 器 的 弹性 ! 尽管 如 此 ， 这 可 能 是 一 个 可 以 快速 见效 的 很 好 的 方 
式 ， 特 别 是 当 你 正在 使 用 虚拟 化 供应 商 的 服务 ， 并 且 它 允许 你 轻松 地 调整 机 器 的 大 小 时 。 


11.7.2 ” 拆 分 负载 

正如 在 第 6 章 中 所 述 的 ， 单 服务 单 主机 模型 肯定 要 优 于 多 服务 单 主机 模型 。 然 而 在 最 初 的 
时 候 ， 很 多 人 决定 将 多 个 微服 务 共 存 于 一 台 主 机 ， 以 降低 成 本 或 简化 主机 管理 (尽管 这 个 
原因 有 待 商 椎 )。 因 为 微服 务 是 通过 网 络 通信 的 独立 进程 ， 所 以 把 它们 切换 到 使 用 自己 的 
主机 来 提高 吞吐 量 和 伸缩 性 ， 应 该 是 一 件 很 容易 的 事 。 这 还 可 以 增加 系统 的 弹性 ， 因 为 单 
台 主 机 的 宕 机 将 影响 较 少 数量 的 微服 务 。 


当然 ， 我 们 也 可 能 因为 要 扩展 需要 把 现 有 的 微服 务 拆 分 成 几 个 部 分 ， 以 更 好 地 处 理 负载 。 
举 一 个 简单 的 例子 ， 想 象 我 们 的 账户 服务 提供 创建 和 管理 个 人 客户 的 财务 账户 的 功能 ， 同 
时 也 暴露 一 个 API 用 于 运行 查询 来 生成 报表 。 这 个 查询 功能 会 给 系统 带 来 一 个 严重 的 负 
载 。 这 个 查询 不 是 那么 重要 ， 因 为 白天 需要 保持 订单 流 时 并 不 需要 它 。 然 而 ， 为 客户 管理 
财务 账单 的 能 力 是 至 关 重 要 的 ， 因 此 我 们 不 能 承担 它 宕 机 带 来 的 后 果 。 通 过 把 这 两 个 功能 
拆 分 到 单独 的 服务 ， 减 少 了 关键 账户 服务 上 的 负载 ， 并 且 引 入 一 个 用 以 查询 的 新 的 账户 报 
表 服 务 (也 许 使 用 我 们 在 第 4 章 中 描述 的 一 些 技术 ， 但 作为 一 个 非 关 键 系统 ， 并 不 需要 像 
核心 账户 服务 那样 以 富有 弹性 的 方式 部 署 ) 。 


11.7.3 “分 散 风险 

弹性 扩展 的 一 种 方式 是 ， 确 保 不 要 把 所 有 鸡蛋 放 在 一 个 篮子 里 。 一 个 简单 的 例子 是 ， 确 保 
你 不 要 把 多 个 服务 放 到 一 台 主 机 上 ， 因 为 主机 的 宕 机 会 影响 多 个 服务 。 但 让 我 们 考虑 一 下 
主机 指 的 是 什么 。 在 大 多 数 情况 下 ， 现 在 的 主机 实际 上 是 一 个 虚拟 的 概念 。 如 果 所 有 的 服 
务 都 在 不 同 的 主机 上 ， 但 这 些 主机 实际 上 都 是 运行 在 一 台 物 理 机 上 的 虚拟 主机 呢 ? 如 果 物 
理 机 宕 掉 ， 同 样 也 会 失去 多 个 服务 。 一 些 虚拟 化 平台 能 够 确保 你 的 主机 分 布 在 多 个 不 同 的 
物理 机 上 ， 以 减 小 发 生 上 述 情 况 的 可 能 性 。 
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对 于 内 部 的 虚拟 化 平台 ， 常 见 的 做 法 是 ， 虚 拟 机 的 根 分 区 映射 到 单个 SAN (Storage Area 
Network， 存 储 区 域 网 络 )。 如 果 SAN 故障 ， 会 影响 所 有 连接 的 虚拟 机 。SAN 是 大 型 的 、 
昂贵 的 ， 并 且 被 设计 成 不 会 发 生 故 障 。 不 过 ， 在 过 去 的 10 年 中 ， 那 些 大 型 且 昂 贵 的 SAN 
至 少 发 生 过 两 次 故障 ， 而 且 每 次 的 后 果 都 相当 严重 。 


另 一 种 常见 的 减少 故障 的 方法 是 ， 确 保 不 要 让 所 有 的 服务 都 运行 在 同一 个 数据 中 心 的 同 
“一 个 机 架 上 ， 而 是 分 布 在 多 个 数据 中 心 。 如 果 你 使 用 基础 服务 供应 商 ， 知 道 SLA (Service- 
Level Agreement， 服 务 等 级 协议 ) 是 否 提供 和 具备 相应 的 计划 是 非常 重要 的 。 如 果 需 要 确 
保 你 的 服务 在 每 季度 不 超过 四 小 时 的 宕 机 时 间 ， 但 是 主机 供应 商 只 能 保证 每 个 季度 不 超过 
八 小 时 的 宕 机 时 间 ， 你 必须 改变 SAL 或 选取 一 个 灰 代 解决 方案 。 


比如 ，AWS 被 拆 分 为 多 个 地 区 ， 你 可 以 把 它们 看 作 不 同 的 云 。 每 个 地 区 依次 被 拆 分 成 两 
个 或 更 多 的 AZs (Availability Zones， 可 用 性 区 域 )。AZs 是 AWS 中 数据 中 心 的 叫 法 。 因 
为 AWS 不 提供 单个 节点 甚至 整个 AZs 可 用 性 的 担保 ， 所 以 将 服务 分 布 在 多 个 AZs 是 必 
不 可 少 的 。 对 于 其 计算 服务 ， 把 区 域 作为 一 个 整体 ，AWS 在 每 月 给 定 的 期 间 ， 仅 提供 
99.95% 的 正常 运行 时 间 保 证 ， 所 以 要 将 你 的 负载 分 布 到 单个 地 区 的 多 个 AZs 中 。 对 于 一 
些 人 来 说 ， 这 依然 是 不 够 的 ， 他 们 需要 跨 多 个 地 区 运行 他 们 的 服务 。 


当然 ， 值 得 注意 的 是 ， 供 应 商 给 你 的 SLA 保证 肯定 会 减轻 他 们 的 责任 ! 如 果 供应 商 错失 担 
保 目标 ， 给 他 们 的 客户 也 就 是 你 带 来 大 量 金钱 上 的 损失 ， 你 会 发 现 即 使 翻 遍 整个 合同 ， 也 
很 难 找到 可 以 从 他 们 那里 追 回 任何 损失 的 条 款 。 因 此 ， 我 强烈 建议 你 ， 了 解 供应 商 如 果 没 
有 履行 义务 的 影响 ， 并 看 看 你 是 否 需要 准备 一 个 B (或 C) 计划 。 例 如 ， 我 的 很 多 客户 都 
将 一 个 灾难 恢复 托管 平台 放 到 一 个 不 同 的 供应 商 那里 ， 以 确保 他 们 不 至 于 脆弱 得 因为 一 家 
公司 出 错 而 受 影响 。 


11.7.4 负载 均衡 

当 你 想 让 服务 具有 弹性 时 ， 要 避免 单 点 故障 。 对 于 公开 一 个 同步 HTTP 接口 这 样 典型 的 微 
服务 来 说 ， 要 达到 这 个 目的 最 简单 的 方法 是 ， 如 图 11-4 所 示 ， 在 一 个 负载 均衡 器 后 ， 放 置 
多 台 主 机 运行 你 的 微服 务实 例 。 对 于 微服 务 的 消费 者 来 说 ， 你 不 知道 你 是 在 跟 一 个 微服 务 
实例 通信 ， 还 是 一 百 个 。 


负载 均衡 器 各 种 各 样 ， 从 大 型 昂贵 的 硬件 设备 ， 到 像 mod_proxy 这 样 基于 软件 的 负载 均衡 
器 。 它 们 都 有 一 些 共同 的 关键 功能 。 它 们 都 是 基于 一 些 算法 ， 将 调用 分 发 到 一 个 或 多 个 实 
例 中 ， 当 实例 不 再 健康 时 移 除 它 们 ， 并 当 它 们 恢复 健康 后 再 添加 进来 。 


一 些 负载 均衡 器 提供 了 其 他 有 用 的 功能 。 常 见 的 一 个 是 SSL 终止 ,通过 HTTPS 连接 入 站 
负载 均衡 器 后 ， 当 到 实例 本 身 时 转换 成 HTTP 连接 。 从 经 验 上 看 ， 管 理 SSL 的 开销 非常 
大 ， 拥 有 一 个 负载 均衡 器 来 处 理 这 个 过 程 是 相当 有 用 的 。 如 今 ， 这 在 很 大 程度 上 也 简化 了 
单个 主机 运行 实例 的 配置 。 不 过 ， 使 用 HTTPS 的 原因 ， 正 如 我 们 在 第 9 章 讨论 的 ， 是 确 
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保 请 求 不 容易 受到 中 间 人 的 攻击 ， 所 以 如 果 使 用 SSL 终止 ， 在 某 种 程度 上 可 能 会 暴露 我 们 
自己 。 缓 解 这 个 问题 的 一 个 方法 ， 正 如 我 们 在 图 11-5 中 看 到 的 ， 是 把 所 有 的 微服 务实 例 都 
放 在 一 个 独立 的 VLAN 里 。VLAN 是 一 个 虚拟 局 域 网 ， 所 有 的 外 部 请 求 只 能 通过 一 个 路 由 
器 访问 内 部 。 在 这 个 例子 中 ， 这 个 路 由 器 也 就 是 SSL 终端 负载 均衡 器 。VLAN 外 部 跟 微服 
务 通信 的 唯一 方式 是 通过 HTTPS ， 而 内 部 的 所 有 通信 都 是 通过 HTTP。 





外 部 请 求 访问 


http://customer.musiccorp.com 











11-4: 使 用 负载 均衡 来 扩展 客户 服务 实例 的 一 个 例子 








通过 安全 的 SSL 请 求 访问 


http://customer.musiccorp.com 


通过 HTTP 的 请 求 


VLAN 边 界 1 


和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 








11-5: 使 用 更 安全 的 VLAN ， 负 载 均衡 提供 的 HTTPS 终止 


AWS 以 ELBs (Elastic Load Balancers， 弹 性 负载 均衡 器 ) 的 形式 ， 提 供 HITPS 终止 的 
负载 均衡 器 ， 你 可 以 使 用 其 安全 组 或 VPCs (Virtual Private Clouds， 私 有 虚拟 云 ) 来 实现 
VLAN。 另 外 ， 像 mod_proxy 这 样 的 软件 ， 可 以 发 挥 类 似 软件 负载 均衡 器 的 作用 。 许 多 组 
织 使 用 硬件 负载 均衡 器 ， 不 过 它 很 难 实现 自动 化 。 正 因为 如 此 ， 我 自己 倾向 于 在 硬件 负载 
均衡 器 后 使 用 软件 负载 均衡 器 ， 这 样 允 许 团 队 自由 地 按 需 重新 配置 它们 。 事 实 上 ,硬件 负 
载 均衡 器 本 身 往往 也 会 成 为 单 点 故障 |! 不 过 ， 无 论 采 用 哪 种 方式 ， 当 考虑 负载 均衡 器 的 配 
置 时 ， 要 像 对 待 服务 的 配置 一 样 对 待 它 : 确保 它 存放 在 版 本 控制 系统 中 ， 并 且 可 以 被 自动 
化 地 应 用 。 
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负载 均衡 器 允许 我 们 以 对 服务 的 所 有 消费 者 透明 的 方式 ， 增 加 更 多 的 微服 务实 例 。 这 提高 
了 我 们 应 对 负载 的 能 力 ， 并 减少 了 单个 主机 故障 的 影响 。 然 而 ， 很 多 (如 果 不 是 大 多 数 的 
话 ) 微服 务 会 有 某 种 形式 的 持久 化 数据 存储 ， 很 有 可 能 是 在 另 一 台 机 器 上 的 数据 库 。 如 果 
多 个 微服 务实 例 运 行 在 多 台 机 器 上 ,但 只 有 一 台 主 机 在 运行 数据 库 实例 ， 那 么 数据 库 依 然 
是 一 个 单 点 故障 源 。 我 们 很 快 会 讨论 应 对 这 个 问题 的 模式 。 


11.7.5 基于 worker 的 系统 

负载 均衡 不 是 服务 的 多 个 实例 分 担负 载 和 降低 脆弱 性 的 唯一 方式 。 根 据 操作 性 质 的 不 同 ， 
基于 worker 的 系统 可 能 和 负载 均衡 一 样 有 效 。 在 这 里 ， 所 有 的 实例 工作 在 一 些 共享 的 待 办 
作业 列表 上 。 列 表 里 可 能 是 一 些 Hadoop 的 进程 ， 或 者 是 共享 的 作业 队列 上 的 一 大 批 监听 
器 。 这 些 类 型 的 操作 非常 适合 批量 或 异步 作业 。 比 如 像 图 像 缩 略图 处 理 、 发 送 电子 邮件 或 
生成 报告 这 样 的 任务 。 


该 模型 同样 适用 于 负载 高 峰 ， 你 可 以 按 需 增加 额外 的 实例 来 处 理 更 多 的 负载 。 只 要 作业 队 
列 本 身 具 有 弹性 ， 该 模型 就 可 以 用 于 改善 作业 的 吞吐 量 ， 也 可 以 改善 其 弹性 ， 因 为 它 很 容 
易 应 对 worker 故障 (或 worker 不 存在 ) 带 来 的 影响 。 作 业 有 可 能 需要 更 长 的 时 间 ， 但 不 
会 丢失 。 


我 在 一 些 组 织 中 看 到 过 这 种 方式 且 工 作 得 很 好 ， 这 些 组 织 在 一 天 的 某 些 时 候 会 有 大 量 未 使 
用 的 计算 能 力 。 例 如 ， 在 半夜 你 可 能 不 需要 很 多 机 器 运行 电子 商务 系统 ， 因 此 可 以 暂时 使 
用 它们 来 运行 生成 报告 任务 的 worker。 


使 用 基于 worker 的 系统 时 ， 虽 然 worker 本 身 不 需要 很 高 的 可 靠 性 ， 但 保存 待 办 作业 列表 
的 系统 时 需要 。 你 可 以 使 用 一 个 持久 化 的 消息 代理 来 解决 这 个 问题 ， 或 使 用 像 Zookeeper 
这 样 的 系统 。 如 果 我 们 使 用 已 有 的 软件 来 做 这 件 事 情 ， 好 处 是 可 以 享用 很 多 前 人 所 做 的 努 
力 。 然 而 ， 我 们 仍然 需要 知道 ， 如 何 配置 和 维护 这 些 系统 ， 使 得 它们 具有 弹性 。 


11.7.6 重新 设计 

系统 最 初 的 架构 ， 可 能 和 能 够 应 对 很 大 负载 容量 的 架构 是 不 同 的 。 正 如 Jeff Dean 在 他 的 
演 讲 “Challenges in Building Large-Scale Information Retrieval Systems”(2009 年 WSDM 
会 议 ) 中 所 说 的 ， 你 的 设计 应 该 “考虑 10 倍 容量 的 增长 ， 但 超过 100 倍 容量 时 就 要 重 写 
了 ”。 在 某 些 时 刻 ， 你 需要 做 一 些 相当 激进 的 事情 ， 以 支持 负载 容量 增加 到 下 一 个 级 别 。 


回忆 我 们 在 第 6 章 讨论 的 Gilt 的 故事 。 一 个 简单 的 单 块 Rails 应 用 程序 可 以 很 好 地 为 Gilt 
工作 两 年 。 其 业务 变 得 越 来 越 成 功 ， 这 意味 着 更 多 的 客户 和 更 多 的 负载 。 在 某 一 个 临界 
点 ， 该 公司 不 得 不 重新 设计 应 用 程序 ， 来 处 理 之 前 就 预见 到 的 负载 。 


重新 设计 可 能 意味 着 拆 分 现 有 的 单 块 系统 ， 就 像 Gilt 做 的 那样 。 或 可 能 意味 着 挑选 新 的 数 
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据 存储 方式 ， 以 便 更 好 地 应 对 负载 ， 我 们 很 快 会 看 到 这 个 方案 。 它 还 可 能 意味 着 采用 新 的 
技术 ,例如 从 同步 请 求 /响应 转换 成 基于 事件 的 系统 ， 采 用 新 的 部 署 平台 ,改变 整个 技术 
栈 ， 或 所 有 介 于 这 些 之 间 的 方案 。 


有 人 将 到 一 定 比例 阔 值 时 需要 重新 设计 架构 作为 从 一 开始 就 构建 大 规模 系统 的 理由 ， 这 是 
很 危险 的 ， 甚 至 可 能 是 灾难 性 的 。 在 开始 一 个 新 项 目 时 ， 我 们 往往 不 知道 真正 想 要 构建 的 
是 什么 ， 也 不 知道 它 是 否 会 成 功 。 我 们 需要 快速 实验 ， 并 以 此 了 解 需要 构建 哪些 功能 。 如 
果 在 前 期 为 准备 大 量 的 负载 而 构建 系统 ， 将 在 前 期 做 大 量 的 工作 ， 以 准备 应 对 也 许 永远 不 
会 到 来 的 负载 ， 同 时 耗费 了 本 可 以 花 在 更 重要 的 事情 上 的 精力 ， 例 如 ， 理 解 是 否 真有 人 会 
使 用 我 们 的 产品 。Eric Ries "讲述 了 一 个 故事 ， 他 花 了 六 个 月 的 时 间 构建 了 一 个 产品 ， 却 压 
根 没 有 人 下 载 。 他 反思 说 ， 他 本 可 以 在 网 页 上 放 一 个 链接 ， 当 有 人 点 击 时 返回 404， 以 此 
来 检验 是 否 真 的 有 这 样 的 需求 。 与 此 同时 他 可 以 在 海滩 上 度 过 六 个 月 ， 并 且 这 种 方式 跟 花 
六 个 月 构建 产品 学 到 的 知识 是 一 样 多 的 ! 


需要 更 改 我 们 的 系统 来 应 对 规模 化 ， 这 不 是 失败 的 标志 ， 而 是 成 功 的 标志 。 


11.8 扩展 数据 库 


扩展 无 状态 的 微服 务 是 相对 简单 的 。 但 如 果 我 们 把 数据 存储 在 一 个 数据 库 呢 ? 我 们 也 需要 
知道 如 何 扩展 数据 库 。 不 同类 型 的 数据 库 会 提供 不 同形 式 的 扩展 ， 理 解 哪 种 形式 最 适合 你 
的 使 用 场景 ， 将 确保 从 一 开始 你 就 选择 了 正确 的 数据 库 技 术 。 


11.8.1 服务 的 可 用 性 和 数据 的 持久 性 
更 直接 地 说 ， 重 要 的 是 你 要 区 分 服务 的 可 用 性 和 数据 的 持久 性 这 两 个 概念 。 你 需要 明白 这 
是 不 同 的 两 件 事情 ， 因 此 会 有 不 同 的 解决 方案 。 


例如 ， 对 于 所 有 写 和 数据库 的 数据 ， 我 可 以 将 一 份 副本 存储 到 一 个 弹性 文件 系统 。 如 采 数 
据 库 出 现 故障 ， 数 据 不 会 丢失 ， 因 为 有 一 个 副本 ， 但 数据 库 本 身 是 不 可 用 的 ， 这 会 使 我 们 
的 微服 务 也 不 可 用 。 一 个 更 常用 的 模式 是 使 用 副本 。 把 写 入 主 数据 库 的 所 有 数据 ， 都 复制 
到 备用 副本 数据 库 。 如 果 主 数据 库 出 现 故障 ， 我 的 数据 是 安全 的 ， 但 如 果 疫 有 一 个 机 制 让 
主 数据 库 恢复 或 提升 副本 为 主 数据 库 ， 即 使 数据 是 安全 的 ， 数 据 库 依然 不 可 用 。 


11.8.2 ”扩展 读 取 


很 多 服务 都 是 以 读 取 数 据 为 主 的 。 例 如 保存 我 们 出 售 物品 信息 的 目录 服务 。 添 加 新 物品 记 
录 是 相当 不 规律 的 ， 如 果 说 每 笔 写 入 的 目录 数据 都 有 100 次 以 上 的 读 取 ， 这 个 数字 不 会 让 


注 10:《 精 益 创业 》 的 作者 。 一 一 译 者 注 
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你 感到 惊讶 。 令 人 高 兴 的 是 ， 扩 展 读 取 要 比 扩展 写 入 更 容易 。 缓 存 的 数据 在 这 里 可 以 发 挥 
很 大 的 作用 ， 我 们 稍 后 会 进行 更 深入 的 讨论 。 另 一 种 模式 是 使 用 只 读 副 本 。 


在 像 MySQL 或 Postgres 这 样 的 RDBMS (Relational Database Management System， 关 系 
型 数据 库 管 理 系统 ) 中 ， 数 据 可 以 从 主 节 点 复制 到 一 个 或 多 个 副本 。 这 样 做 通常 是 为 了 确 
保有 一 份 数 据 的 备份 以 保证 安全 ， 但 我 们 也 可 以 用 它 来 分 发 读 取 。 正 如 我 们 在 图 11-6 中 
看 到 的 ， 服 务 可 以 在 单个 主 节点 上 进行 所 有 的 写 操 作 ， 但 是 读 取 被 分 发 到 一 个 或 多 个 只 读 
副本 。 从 主 数据 库 复制 到 副本 ， 是 在 写 入 后 的 某 个 时 刻 完 成 的 ， 这 意味 着 使 用 这 种 技术 读 
取 ， 有 时 候 看 到 的 可 能 是 失效 的 数据 ， 但 是 最 终 能 够 读 取 到 一 致 的 数据 ， 这 样 的 方式 被 称 
为 最 终 一 致 性 。 如 有 果 你 能 够 处 理 暂时 的 不 一 致 ， 这 是 一 个 相当 简单 和 和 常见 的 用 来 扩展 系统 
的 方式 。 稍 后 我 们 在 看 CAP 定理 时 ， 会 深入 讨论 这 个 话题 。 














复制 写 人 











11-6: 使 用 只 读 副 本 来 扩展 读 取 


儿 年 前 ， 使 用 只 读 副本 进行 扩展 风靡 一 时 ， 不 过 现在 我 建议 你 首先 看 看 缓存 ， 因 为 它 可 以 
提供 更 显著 的 性 能 改善 ， 而 且 工 作 量 往 往 更 少 。 


11.8.3 扩展 写 操作 

扩展 读 取 是 比较 容易 的 。 那 么 扩展 写 操作 呢 ? 一 种 方法 是 使 用 分 片 。 采 用 分 片 方式 ， 会 存 
在 多 个 数据 库 节 点 。 当 你 有 一 块 数据 要 写 入 时 ， 对 数据 的 关键 字 应 用 一 个 哈 希 函数 ， 并 基 
于 这 个 函数 的 结果 决定 将 数据 发 送 到 哪个 分 片 。 举 一 个 非常 简单 的 (实际 上 是 很 糟 的 ) 的 
例子 ， 你 可 以 想象 将 客户 记录 A~M 写 到 一 个 数据 库 实例 ， 而 N~Z 写 到 另 一 个 数据 库 实 
例 。 你 可 以 在 应 用 程序 里 管理 这 部 分 逻辑 ， 但 一 些 数据 库 ， 例 如 Mongo， 已 经 帮 你 处 理 了 
很 多 。 

分 片 写 操 作 的 复杂 性 来 自 于 查询 处 理 。 查 找 单个 记录 是 很 容易 的 ， 因 为 可 以 应 用 哈 希 函数 
找到 数据 应 该 在 哪个 实例 上 ， 然 后 从 正确 的 分 片 获取 它 。 但 如 果 查 询 跨 越 了 多 个 节点 呢 ? 
例如 ， 查 找 所 有 年 满 18 岁 的 顾客 。 如 果 你 要 查询 所 有 的 分 片 ， 要 么 需要 查询 每 个 分 片 ， 
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然后 在 内 存 里 进行 拼接 ， 要 么 有 一 个 替代 的 读数 据 库 包 含 所 有 的 数据 集 。 跨 分 片 查询 往往 
采用 异步 机 制 ， 将 查询 的 结果 放 进 缓存 。 例 如 ，Mongo 使 用 map/reduce 作业 来 执行 这 些 
查询 。 


使 用 分 片 系统 会 出 现 的 问题 之 一 是 ， 如 果 我 想 添加 一 个 额外 的 数据 库 市 点 该 怎么 办 ? 在 过 
去 ， 这 往往 需要 大 量 的 宕 机 时 间 (特别 是 对 于 大 型 集群 )， 因 为 你 需要 停 掉 整个 数据 库 ， 
然后 重新 分 配 数据 。 最 近 ， 越 来 越 多 的 系统 支持 在 不 停机 的 情况 下 添加 额外 的 分 片 ， 而 重 
新 分 配 数据 会 放 在 后 台 执 行 ， 例 如 ，Cassandra 在 这 方面 就 处 理 得 很 好 。 不 过 ， 添 加 一 个 分 
片 到 现 有 的 集群 依然 是 有 风险 的 ， 因 此 你 需要 确保 对 它 进 行 了 充分 的 测试 。 


写 入 分 片 可 能 会 扩展 写 容 量 ， 但 不 会 提高 弹性 。 如 果 客 户 记 录 A~M 总 是 去 实例 X， 那 
么 当 实例 X 不 可 用 时 ，A~M 的 记录 依然 无 法 访问 。Cassandra 在 这 方面 提供 额外 的 功能 ， 
可 以 确保 数据 在 一 个 环 (ring，Cassandra 的 术语 ， 来 描述 它 的 节点 集合 ) 内 复制 到 多 个 


正如 你 可 能 已 经 推断 出 的 ， 从 上 面 这 些 简单 的 概述 中 我 们 发 现 ， 扩 展 数据 库 写 操作 非常 环 
手 ， 而 各 种 数据 库 在 这 方面 的 能 力 开始 真正 分 化 。 我 经 常 看 到 ， 当 人 们 无 法 轻松 地 扩展 现 
有 的 写 容 量 时 ， 才 改变 数据 库 技术 。 如 果 这 发 生 在 你 身上 ， 买 一 个 大 点 的 机 器 往往 是 快速 
解决 这 个 问题 的 方法 ， 但 长 远 来 看 ， 你 可 能 需要 看 看 像 Cassandra、Mongo 或 者 Riak 这 样 
的 数据 库 系 统 ， 它 们 不 同 的 扩展 模型 能 否 给 你 提供 一 个 长 期 的 解决 方案 。 


11.8.4 共享 数据 库 基础 设施 


某 些 类 型 的 数据 库 ， 例 如 传统 的 RDBMS ， 在 概念 上 区 分 数据 库 本 身 和 模式 (schema)。 这 
意味 着 ， 一 个 正在 运行 的 数据 库 可 以 承载 多 个 独立 的 模式 ， 每 个 微服 务 一 个 。 这 可 以 有 效 
地 减少 需要 运行 系统 的 机 器 的 数量 ， 从 这 一 点 来 说 它 很 有 用 ， 不 过 我 们 也 引入 了 一 个 重要 
的 单 点 故障 。 如 果 该 数据 库 的 基础 设施 出 现 故障 ， 它 会 影响 多 个 微服 务 ， 这 可 能 导致 灾难 
性 故障 。 如 果 你 正 以 这 样 的 方式 配置 数据 库 ， 请 确保 慎重 考虑 了 风险 ， 并 且 确 定 该 数据 库 
本 身 具有 尽 可 能 高 的 弹性 。 


11.8.5 CQRS 


CQRS ( Command-Query Responsibility Segregation， 命 令 查询 职责 分 离 ) 模式 ， 是 一 个 存 
储 和 查询 信息 的 替代 模型 。 传 统 的 管理 系统 中 ， 数 据 的 修改 和 查询 使 用 的 是 同一 个 系统 。 
使 用 CQRS 后 ， 系 统 的 一 部 分 负责 获取 修改 状态 的 请 求 命令 并 处 理 它 ， 而 另 一 部 分 则 负责 
处 理 查 询 。 


收 到 的 命令 会 请 求 状态 的 变化 ， 如 果 这 些 命令 验证 有 效 ， 它 们 将 被 应 用 到 模型 。 命 令 应 该 
包含 与 它们 意图 相关 的 信息 。 它 们 可 以 以 同步 或 异步 的 方式 处 理 ， 允 许 扩展 不 同 的 模型 来 
处 理 ; 例 如， 我 们 可 以 只 是 将 请 求 排 进 队列 ， 之 后 再 处 理 它们 。 
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这 里 的 关键 是 ， 内 部 用 于 处 理 命令 和 查询 的 模型 本 身 是 完全 独立 的 。 例 如 ， 我 可 能 选择 把 
命令 作为 事件 ， 只 是 将 命令 列表 存储 在 一 个 数据 存储 中 (这 一 过 程 称 为 事件 溯源 ，event 
sourcing) 。 我 的 查询 模型 可 以 查询 事件 库 ， 从 存储 的 事件 推算 出 领域 对 象 的 状态 ,或 只 是 
从 系统 的 命令 部 分 获取 一 个 聚合 ， 来 更 新 其 他 不 同类 型 的 存储 。 在 许多 方面 ， 我 们 得 到 跟 
之 前 讨论 的 只 读 副本 方式 同样 的 好 处 ， 但 CQRS 中 的 副本 数据 ， 不 需要 和 处 理 数据 修改 的 
数据 存储 相同 。 


这 种 形式 的 分 离 允 许 不 同类 型 的 扩展 。 我 们 系统 的 命令 和 查询 部 分 可 能 是 在 不 同 的 服务 或 
在 不 同 的 硬件 上 ， 完 全 可 以 使 用 不 同类 型 的 数据 存储 。 这 解锁 了 处 理 扩 展 的 大 量 方法 。 你 
甚至 可 以 通过 实现 不 同 的 查询 方式 来 支持 不 同类 型 的 读 取 格 式 ， 比 如 支持 图 形 展示 的 数据 
格式 ， 或 是 基于 键 / 值 形式 的 数据 格式 。 


但 要 提醒 大 家 一 句 : 相对 于 单一 数据 存储 处 理 所 有 的 CRUD 操作 的 模式 ， 这 种 模式 是 一 个 
相当 大 的 转变 。 我 见 过 不 止 一 个 经 验 丰富 的 开发 团队 在 纠结 如 何 正确 地 使 用 这 一 模式 ! 


11.9 缓存 


缓存 是 性 能 优化 常用 的 一 种 方法 ， 通 过 存储 之 前 操作 的 结果 ， 以 便 后 续 请 求 可 以 使 用 这 个 
存储 的 值 ， 而 不 需 花 时 间 和 资源 重新 计算 该 值 。 通 常情 况 下 ， 缓 存 可 以 消除 不 必要 的 到 数 
据 库 或 其 他 服务 的 往返 通信 ， 让 结果 返回 得 更 快 。 如 果 使 用 得 当 ， 它 可 以 带 来 巨大 的 性 能 
好 处 。HTTP 在 处 理 大 量 请 求 时 ， 伸 缩 性 如 此 良好 的 原因 就 是 内 置 了 缓存 的 概念 。 


即使 对 一 个 简单 的 单 块 Web 应 用 程序 来 说 ， 你 也 可 以 选择 在 很 多 不 同 的 地 方 ， 使 用 多 种 不 
同 的 方式 进行 缓 在。 在 微服 务 的 架构 下 ， 每 个 服务 都 有 自己 的 数据 源 和 行为 ， 对 于 在 何 处 
以 及 如 何 缓存 ， 我 们 有 更 多 的 选择 。 对 于 一 个 分 布 式 系统 ， 通 常 认为 缓存 可 以 放 在 客户 端 
或 服务 端 。 但 是 ， 放 在 哪里 最 好 呢 ? 


11.9.1 客户 端 、 代理 和 服务 器 端 缓存 

使 用 客户 端 缓存 的 话 ， 客 户 端 会 存储 缓存 的 结果 。 由 客户 端 决定 何 时 (以 及 是 否 ) 获取 最 
新 副本 。 理 想 情 况 下 ， 下 游 服 务 将 提供 相应 的 提示 ， 以 帮助 客户 端 了 解 如 何 处 理 响 应 ， 因 
此 客户 端 知 道 何 时 以 及 是 否 需要 发 送 一 个 新 的 请 求 。 代 理 服务 器 缓存 ， 是 将 一 个 代理 服务 
器 放 在 客户 端 和 服务 器 之 间 。 反 向 代理 或 CDN (Content Delivery Network， 内 容 分 发 网 
络 )， 是 很 好 的 使 用 代理 服务 器 缓存 的 例子 。 服 务 器 端 缓存 ， 是 由 服务 器 来 负责 处 理 缓存 ， 
可 能 会 使 用 像 Redis 或 Memcache 这 样 的 系统 ， 也 可 能 是 一 个 简单 的 内 存 缓存 。 

哪 种 缓存 最 合理 取决 于 你 正在 试图 优化 什么 。 客 户 端 缓存 可 以 大 大 减少 网 络 调用 的 次 数 ， 
并 且 是 减少 下 游 服务 负载 的 最 快 方法 之 一 。 但 是 使 用 由 客户 端 负责 缓存 这 种 方式 ， 如 果 你 
想 改 变 缓 存 的 方式 ， 让 大 批 的 消费 者 全 都 变化 是 很 困难 的 。 让 过 时 的 数据 失效 也 比较 二 
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手 ， 尽 管 我 们 会 在 稍 后 讨论 一 些 应 对 机 制 。 


使 用 代理 服务 器 缓存 时 ， 一 切 对 客户 端 和 服务 器 都 是 不 透明 的 。 这 通常 是 增加 缓存 到 现 有 
系统 的 一 个 非常 简单 的 方法 。 如 果 代 理 服 务 器 被 设计 成 对 通用 的 流量 进行 缓存 ， 它 也 可 以 
缓存 多 个 服务 。 一 个 常见 的 例子 是 ， 反 向 代理 Squid 或 Varnish， 它 们 可 以 缓存 任何 HTTP 
通信 。 在 客户 端 和 服务 器 间 加 入 代理 服务 器 ， 会 引入 额外 的 网 络 跳 数 (network hops)， 虽 
然 以 我 的 经 验 来 说 ， 它 很 少 会 导致 出 现 问 题 ， 因 为 缓存 本 身 的 性 能 优化 已 经 超过 了 其 他 额 
外 的 网 络 开销 。 


使 用 服务 器 缓存 ， 一 切 对 客户 端 都 是 不 透明 的 ， 它 们 不 需要 关心 任何 事情 。 缓 存在 服务 
器 外 围 或 服务 器 限界 内 时 ， 很 容易 了 解 一 些 类 似 数据 是 否 失效 这 样 的 事情 ， 还 可 以 跟踪 
和 优化 缓存 命中 率 。 在 你 有 多 种 类 型 客户 端的 情况 下 ， 服 务 器 缓存 可 能 是 提高 性 能 的 最 
快 方式 。 

我 工作 过 的 每 一 个 面向 公众 的 网 站 ， 最 终 都 是 混合 使 用 这 三 种 方法 。 不 过 对 于 几 个 分 布 式 
系统 ， 我 没有 使 用 任何 缓存 。 所 有 这 些 都 取决 于 你 需要 处 理 多 少 负 载 ， 对 数据 及 时 性 有 多 
少 要 求 ， 以 及 你 的 系统 现在 能 做 什么 。 知 道 你 有 儿 个 不 同 的 工具 ， 这 只 是 一 个 开始 而 已 。 


11.9.2 HTTP 缓存 


HTTP 提供 了 一 些 非常 有 用 的 控制 手段 ， 帮 助 我 们 在 客户 端 或 服务 器 端 缓存 ， 即 使 你 不 使 
用 HTTP 也 值得 了 解 一 下 。 


首先 ， 使 用 HTTP， 我 们 可 以 在 对 客户 端的 响应 中 使 用 cache-control 指令 。 这 些 指令 告 
诉 客户 他 们 是 否 应 该 缓存 资源 ， 以 及 应 该 缓存 几 秒 。 我 们 还 可 以 设置 Expires 头 部 ， 它 不 
再 指定 一 段 内 容 应 该 缓存 多 长 时 间 ， 而 是 指定 一 个 日 期 和 时 间 ， 资 源 在 该 日 期 和 时 间 后 被 
认为 失效 ， 需 要 再 次 获取 。 你 共享 的 资源 本 质 ， 决 定 了 哪 一 种 方法 最 为 合适 。 标 准 的 静态 
网 站 内 容 ， 像 CSS 和 图 片 ， 通 常 很 适合 使 用 简单 的 cache-controL TTL (Time To Live， 生 
存 时 间 值 )。 另 一 方面 ， 如 果 你 事先 知道 什么 时 候 会 更 新 一 个 新 版 本 的 资源 ， 设 置 Expires 
头 部 将 更 有 意义 。 以 上 两 种 方法 都 非常 有 用 ， 客 户 端 甚至 无 需 发 请 求 给 服务 器 。 


除了 cache-control 和 Expires， 我 们 在 HTTP 的 兵器 库 里 还 有 另 一 种 选择 : 实体 标签 
(Entity Tags) 或 称 为 Etag。ETag 用 于 标示 资源 的 值 是 否 已 改变 。 如 果 我 更 新 了 客户 记录 ， 
虽然 访问 资源 的 URI 相同 ， 但 值 已 经 不 同 ， 所 以 我 会 改变 ETag。 有 一 种 非常 强大 的 请 求 
方式 叫 作 条 件 GET。 当 发 送 一 个 GET 请 求 时 ， 我 们 可 以 指定 附加 的 头 告诉 服务 器 ， 只 有 
满足 某 些 条 件 时 才 会 返回 和 资源。 - 

例如 ， 假 如 我 们 想 要 获取 一 个 客户 的 记录 ， 其 返回 的 ETag 是 o5t6fkd2sa。 稍 后 ， 也 许 因 


为 cache-control 指令 告诉 我 们 这 个 资源 可 能 已 经 失效 ， 所 以 我 们 想 确 保 得 到 最 新 的 版 本 。 
当 发 出 后 续 的 GET 请 求 ， 我 们 可 以 发 送 一 个 If-None-Match:o5t6fkd2sa。 这 个 条 件 判断 请 
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求 告诉 服务 器 ， 如 果 ETag 值 不 匹配 则 返回 特定 URI 的 资源 。 如 果 我 们 的 已 经 是 最 新 版 本 ， 
服务 器 会 直接 返回 响应 304 (未 修改 ) ， 告 诉 客户 端 缓存 的 已 经 是 最 新 版 本 。 如 果 有 可 用 的 
新 版 本 ， 我 们 会 得 到 响应 206 OK、 更 新 后 的 资源 以 及 新 的 ETag。 


在 这 样 广泛 使 用 的 规范 里 内 置 了 这 些 控制 手段 ， 这 意味 着 可 以 利用 大 量 已 存在 的 软件 ,来 
帮助 我 们 处 理 缓存 。 像 Squid 或 Varnish 这 样 的 反 向 代理 服务 器 可 以 位 于 客户 端 和 服务 器 
间 的 网 络 上 ， 可 以 按 需 存储 缓存 内 容 和 使 内 容 过 期 。 这 些 系统 旨 在 快速 处 理 大 量 的 并 发 请 
求 ， 并 且 它 们 也 是 面向 公众 网 站 扩展 的 一 种 标准 方式 。 像 AWS 的 CloudFront 或 Akamai 
这 样 的 CDN， 可 以 把 请 求 路 由 到 调用 附近 的 缓存 ， 以 确保 通信 不 会 跨越 半 个 地 球 。 简 单 地 
说 ，HTTP 客户 端 库 和 客户 端 缓存 可 以 帮 我 们 做 大 量 的 工作 。 


ETag、Expires 和 cache-control 会 有 一 些 重 全 ， 如 果 你 决定 全 部 使 用 它们 ， 那 么 最 终 有 
可 能 会 得 到 相互 矛盾 的 信息 ! 关于 各 种 方式 的 优点 的 深入 讨论 ， 可 以 看 一 下 《REST 实 
战 》 或 阅读 HTTP 1.1 规范 的 第 13 章 (http://www.w3.org/Protocols/rfc2616/rfc2616-sec13. 
htmj#sec13.3.3) ， 它 们 描述 了 客户 端 和 服务 器 应 该 如 何 实现 这 些 不 同 的 控制 手段 。 


无 论 你 是 否决 定 使 用 HTTP 作为 服务 间 通 信 的 协议 ， 客 户 端 缓存 和 减少 客户 端 与 服务 器 之 
间 不 必要 的 通信 ， 都 是 值得 尝试 的 措施 。 如 果 你 决定 选择 一 个 不 同 的 协议 ， 请 了 解 何 时 以 
及 如 何 为 客户 提供 提示 ， 以 帮助 其 理解 可 以 缓存 的 时 间 。 


11.9.3 为 写 使 用 缓存 

你 会 发 现 尽 管 自己 经 常 在 读 取 时 使 用 缓存 ， 但 在 一 些 用 例 中 ， 为 写 使 用 缓存 也 是 有 意义 
的 。 例 如 ， 如 果 你 使 用 后 写 式 (writebehind) 缓存 ， 可 以 先 写 入 本 地 缓存 中 ， 并 在 之 后 的 
基 个 时 刻 将 缓存 中 的 数据 写 和 下游 的 、 可 能 更 规范 化 的 数据 源 中 。 当 你 有 爆发 式 的 写 操 
作 ， 或 同样 的 数据 可 能 会 被 写 和 人 多 次 时 ， 这 是 很 有 用 的 。 后 写 式 缓存 是 在 缓冲 可 能 的 批 处 
理 写 操作 时 ， 进 一 步 优 化 性 能 的 很 有 用 的 方法 。 


使 用 后 写 式 缓存 ， 如 果 对 写 操作 的 缓冲 做 了 适当 的 持久 化 ， 那 么 即使 下 游 服务 不 可 用 ,我 
们 也 可 以 将 写 操作 放 到 队列 里 ， 然 后 当下 游 服务 可 用 时 再 将 它们 发 送 过 去 。 


11.9.4 为 弹性 使 用 缓存 

缓存 可 以 在 出 现 故 障 时 实现 弹性 。 使 用 客户 端 缓 存 ， 如 果 下 游 服 务 不 可 用 ， 客 户 端 可 以 先 
简单 地 使 用 缓存 中 可 能 失效 了 的 数据 。 我 们 还 可 以 使 用 像 反 向 代理 这 样 的 系统 提供 的 失效 
数据 。 对 一 些 系 统 来 说 ， 使 用 失效 但 可 用 的 数据 ， 比 完全 不 可 用 的 要 好 ， 不 过 这 需要 你 自 
己 做 出 判断 。 显 然 ， 如 果 我 们 没有 把 请 求 的 数据 放 在 缓存 中 ， 那 么 可 做 的 事情 不 多 ， 但 还 
是 有 一 些 方法 的 。 


我 曾经 在 《 卫 报 》 中 见 过 一 种 技术 ， 随 后 在 其 他 地 方 也 见 过 ， 就 是 定期 去 息 (crawl) 现 有 
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的 工作 的 网 站 ， 生 成 一 个 可 以 在 意外 停机 时 使 用 的 静态 网 站 。 虽 然 这 个 仆 下 来 的 版 本 不 比 
工作 系统 的 缓存 内 容 新 ， 但 在 必要 时 ， 它 可 以 确保 至 少 有 一 个 版 本 的 网 站 可 以 显示 。 


11.9.5 ”隐藏 源 服务 

使 用 普通 的 缓存 ， 如 果 请 求 缓存 失败 ， 请 求 会 继续 从 数据 源 获 取 最 新 的 数据 ， 请 求 调用 
会 一 直 等 到 结果 返回 。 在 普通 情况 下 ， 这 是 期 望 的 行为 。 但 是 ， 如 果 遭 受 大 量 的 请 求 组 
存 失败 ， 也 许 是 因为 提供 缓存 的 整个 机 器 (或 一 组 机 器 ) 宕 掉 ， 大 量 的 请 求 会 被 发 送 到 
源 服务 。 


对 于 那些 提供 高 度 可 缓存 数据 的 服务 ， 从 设计 上 来 讲 ， 源 服务 本 身 就 只 能 处 理 一 小 部 分 的 
流量 ， 因 为 大 多 数 请 求 已 经 被 源 服务 前 面 的 缓存 处 理 了 。 如 果 我 们 突然 得 到 一 个 晴天 考 雳 
的 消息 ， 由 于 整个 缓存 区 消失 了 ， 源 服务 就 会 接收 到 远大 于 其 处 理 能 力 的 请 求 。 


在 这 种 情况 下 ， 保 护 源 服务 的 一 种 方式 是 ， 在 第 一 时 间 就 不 要 对 源 服务 发 起 请 求 。 相 反 ， 
如 图 11-7 所 示 ， 在 需要 时 源 服务 本 身 会 异步 地 填充 缓存 。 如 果 缓 存 请 求 失败 ， 会 触发 一 个 
给 源 服务 的 事件 ， 提 醒 它 需要 重新 填充 缓存 。 所 以 如 果 整 个 分 片 消 失 了 ， 我 们 可 以 在 后 台 
重建 缓存 。 可 以 阻塞 请 求 直到 区 域 被 重新 填充 ， 但 这 可 能 会 使 缓存 本 身 的 争 用 ， 从 而 导致 
- 些 问题 。 更 合适 的 是 ， 如 果 想 优先 保持 系统 的 稳定 ， 我 们 可 以 让 原始 请 求 失败 ， 但 要 快 
速 地 失败 。 





同步 ， 阻塞 调用 一 > 
异步 调用 -天 






同步 调用 缓存 消失 则 
缓存 数据 快速 失败 


缓存 消失 触发 


后 台 重 建 缓存 














图 11-7: 保护 源 服务 ， 在 后 台 异 步 重 建 缓存 

在 某 些 情况 下 这 种 方法 可 能 没有 意义 ， 但 当 系 统 的 一 部 分 发 生 故 障 时 ， 它 是 确保 系统 仍然 
可 用 的 一 种 方式 。 让 请 求 快速 失败 ， 确 保 不 占用 资源 或 增加 延迟 ， 我 们 避免 了 级 联 下 游 服 
务 导致 的 缓存 故障 ， 并 给 自己 一 个 恢复 的 机 会 。 


11.9.6 保持 简单 
避免 在 太 多 地 方 使 用 缓存 ! 在 你 和 数据 源 之 间 的 缓存 越 多 ， 数 据 就 越 可 能 失效 ， 就 越 难 
确定 客户 端 最 终 看 到 的 是 否 是 最 新 的 数据 。 这 在 一 个 涉及 多 个 服务 的 微服 务 架构 调用 链 
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中 ， 很 有 可 能 产生 问题 。 再 强调 一 次 ， 缓 存 越 多 ， 就 越 难 评估 任何 数据 的 新 鲜 程 度 。 所 
以 如 果 你 认为 缓存 是 一 个 好 主意 ， 请 保持 简单 ， 先 在 一 处 使 用 缓存 ， 在 添加 更 多 的 缓存 
前 慎重 考虑 | 


11.9.7 缓存 中 毒 : 一 个 警示 

使 用 缓存 时 ， 我 们 经 常 认为 最 糟糕 的 事情 是 ， 我 们 会 在 一 段 时间 内 使 用 到 失效 数据 。 但 如 
果 发 现 你 会 永远 使 用 失效 数据 ， 该 怎么 办 ? 在 之 前 提 到 的 一 个 做 过 的 项 目 中 ,我 们 使 用 了 
一 个 绞 杀 者 应 用 程序 ， 来 帮助 拦截 对 多 个 遗留 系统 的 调用 ， 和 希望 增 量 地 夫 换 它们 。 我 们 的 
系统 作为 代理 在 有 效 地 运行 着 。 应 用 程序 的 流量 会 被 路 由 到 遗留 系统 。 在 流量 返回 时 ， 我 
们 做 了 一 些 清理 工作 ， 例 如 我 们 会 确保 在 遗留 程序 的 响应 中 存在 合适 的 HTTP 缓存 头 。 


有 一 天 ， 在 一 个 普通 的 例 行 发 布 后 不 久 ， 发 生 了 一 件 奇 怪 的 事情 。 我 们 在 插入 缓存 头 的 一 
不 亲人 站 和亲 站 引入 了 一 个 bug， 导 致 一 小 部 分 页 面 的 缓存 头 没有 被 改变 。 不 幸 的 是 ， 
这 个 下 游 的 应 用 程序 也 在 之 前 的 某 个 时 候 ， 将 HTTP 头 改 成 包含 Expires: Never。 这 在 以 
前 设 有 任何 影响 ， 因 为 我 们 重 写 过 这 个 头 ， 但 现在 不 一 样 了 。 


我 们 的 应 用 程序 大 量 使 用 Squid 来 缓存 HTTP 流量 ， 上 述 问 题 很 快 被 发 现 ， 因 为 我 们 看 到 
越 来 越 多 的 请 求 绕 过 Squid 本 身 来 访问 应 用 程序 服务 器 。 修 复 缓 存 头 代码 后 ， 我 们 发 布 了 
一 个 新 的 版 本 ， 并 且 手 动 清 除了 Squid 缓存 的 相关 区 域 ， 但 这 还 不 够 。 


如 前 所 述 ， 你 可 以 在 多 个 地 方 进行 缓存 。 当 考虑 在 一 个 面向 公众 的 Web 应 用 程序 中 提供 内 

容 服务 时 ， 在 你 和 客户 间 可 能 存在 多 个 缓存 。 可 能 不 仅 你 在 网 站 上 使 用 CDN， 有 些 ISP 也 
会 使 用 缓存 。 你 可 以 控制 这 些 缓存 吗 ?即使 你 可 以 ， 还 有 一 个 缓存 是 你 无 法 控制 的 用户 
浏览 器 中 的 缓存 。 


这 些 使 用 Expires: Never 的 页 面 ， 停 留 在 很 多 用 户 的 缓存 里 ， 永 远 不 会 失效 ， 直 到 缓存 已 
满 或 者 用 户 和 手动 清理 它们 。 显 然 ， 我 们 无 法 让 上 述 任 何事 情 发 生 。 我 们 唯一 的 选择 就 是 ， 
改变 这 些 网 页 的 URL， 以 便 能 够 重新 获取 它们 。 

缓存 可 以 很 强大 ， 但 是 你 需要 了 解数 据 从 数据 源 到 终点 的 完整 缓存 路 径 ， 从 而 真正 理解 它 
的 复杂 性 以 及 使 它 出 错 的 原因 。 


11.10 自动 伸缩 


如 果 你 足够 幸运 ， 可 以 完全 自动 化 地 创建 虚拟 主机 以 及 部 署 你 的 微服 务实 例 ， 那 么 你 已 经 
具备 了 对 微服 务 进行 自动 伸缩 的 基本 条 件 。 


例如 ， 众 所 周知 的 趋势 有 可 能 会 触发 伸缩 的 发 生 。 可 能 系统 的 负载 高 峰 是 从 上 午 9 点 到 下 
午 5 点， 因此 你 可 以 在 早上 8: 45 启动 额外 的 实例 ， 然 后 在 下 午 5: 15 关 掉 这 些 你 不 再 需要 
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的 实例 ， 以 节省 开支 。 你 需要 数据 来 了 解 负载 是 如 何 随 着 时 间 的 推移 而 变化 的 ， 这 些 数据 
统计 需要 跨 好 几 天 甚至 是 好 几 周 的 时 间 周 期 。 一 些 企 业 也 有 明显 的 季节 性 周期 ， 所 以 需要 
数据 帮 你 做 出 正确 的 判断 。 


另 一 方面 ， 你 可 以 响应 式 地 进行 负载 调整 ， 比 如 在 负载 增加 或 某 个 实例 发 生 故 障 时 ， 来 增 
加 额外 的 实例 ， 或 在 不 需要 时 移 除 它们 。 关 键 是 要 知道 一 旦 发 现 有 上 升 的 趋势 ， 你 能 够 多 
快 完成 扩展 。 如 果 你 只 能 在 负载 增加 的 前 几 分 钟 得 到 消息 ， 但 是 扩展 至 少 需要 10 分 钟 ， 
那么 你 需要 保持 额外 的 容量 来 弥合 这 个 差距 。 良 好 的 负载 测试 套件 在 这 里 是 必 不 可 少 的 。 
你 可 以 使 用 它们 来 测试 自动 伸缩 规则 。 如 果 没 有 测试 能 够 重 现 触发 伸缩 的 不 同 负载 ， 那 么 
尔 只 能 在 生产 环境 上 发 现 规则 的 错误 ， 但 这 时 的 后 果 不 堪 设 想 ! 


新 闻 网 站 是 一 个 很 好 的 混合 使 用 预测 型 伸缩 和 响应 型 伸缩 的 例子 。 在 我 上 个 工作 过 的 新 闻 
网 站 上 ， 能 清楚 地 看 到 其 日 常 趋势 ， 从 早晨 一 直到 午餐 时 间 人 负载 上 升 ， 随 后 开始 下 降 。 这 
种 模式 每 天 都 在 重复 ， 但 在 周末 流量 波动 则 不 太 明 显 。 这 呈现 给 你 相当 明显 的 趋势 ， 可 以 
据 此 对 资源 进行 主动 扩容 〈 缩 容 )。 另 一 方面 ， 一 个 大 新 闻 可 能 会 导致 意外 的 高 峰 ， 在 短 
时 间 内 需要 更 多 的 容量 。 


事实 上 相 比 响应 负载 ， 自 动 伸缩 被 更 多 应 用 于 响应 故障 。AWS 允许 你 指定 这 样 的 规则 : 
“这 个 组 里 至 少 应 该 有 5 个 实例 ”， 所 以 如 果 一 个 实例 宕 掉 后 ， 一 个 新 的 实例 会 自动 启动 。 
当 有 人 忘记 关 掉 这 个 规则 时 ， 就 会 导致 一 个 有 趣 的 打 典 鼠 游 戏 (whack-a-mole)， 即 当 试 图 
停 掉 一 个 实例 进行 维护 时 ， 它 却 自动 启动 起 来 了 ! 


响应 型 伸缩 和 预测 型 伸缩 都 非常 有 用 ， 如 果 你 使 用 的 平台 允许 按 需 支付 所 使 用 的 计算 资 
源 ， 它 们 可 以 节省 更 多 的 成 本 。 但 这 也 需要 仔细 观察 你 提供 的 数据 。 我 建议 ， 首 先 在 故障 
的 情况 下 使 用 自动 伸缩 ， 同 时 收集 数据 。 一 旦 你 想 要 为 负载 伸缩 ， 一定 要 谨慎 不 要 太仓 促 
缩 容 。 在 大 多 数 情况 下 ， 手 头 有 多 余 的 计算 能 力 ， 比 没有 足够 的 计算 能 力 要 好 得 多 ! 


11.11 CAP 定 理 


我 们 想 要 拥有 一 切 ， 但 不 幸 的 是 我 们 做 不 到 。 当 使 用 微服 务 架 构 构 建 的 分 布 式 系统 时 ， 一 
个 数学 证 明 甚 至 就 能 证 明 我 们 做 不 到 。 你 很 有 可 能 已 经 听 说 过 CAP 定理 ,尤其 是 在 讨论 各 
种 不 同类 型 的 数据 存储 的 优 缺 点 时 。 其 核心 是 告诉 我 们 ， 在 分 布 式 系统 中 有 三 方面 需要 彼 
此 权衡 : 一 致 性 (consistency)、 可 用 性 (availability) 和 分 区 容忍 性 (partition tolerance)。 
具体 地 说 ， 这 个 定理 告诉 我 们 最 多 只 能 保证 三 个 中 的 两 个 。 


一 致 性 是 当 访 问 多 个 节点 时 能 得 到 同样 的 值 。 可 用 性 意味 着 每 个 请 求 都 能 获得 响应 。 分 区 
容忍 性 是 指 集群 中 的 某 些 节点 在 无 法 联系 后 ， 集 群 整体 还 能 继续 进行 服务 的 能 

自从 Eric Brewer 发 表 了 他 的 初始 猜想 后 ， 这 个 想法 得 到 了 数学 证 明 。 我 不 打算 深入 数学 证 
明 本 身 ， 因 为 这 不 是 那 一 类 的 书 ， 而 且 我 肯定 会 把 它 弄 错 。 相 反 ， 让 我 们 用 一 些 实例 来 帮 
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助理 解 ，CAP 定理 背后 是 一 套 严 密 的 逻辑 推理 。 


我 们 已 经 介绍 过 一 些 简 单 的 数据 库 扩 展 技术 。 让 我 们 使 用 其 中 一 个 技术 ， 来 探讨 CAP 定 
理 背 后 的 思想 。 如 图 11-8 所 示 ， 假 设 我 们 的 库存 服务 部 署 在 两 个 独立 的 数据 中 心 。 我 们 
在 每 个 数据 中 心 的 服务 实例 都 有 一 个 数据 库 支 持 ， 并 且 这 两 个 数据 库 通 过 彼此 通信 进行 
数据 同步 ; 读 和 写 操作 都 通过 本 地 数据 库 节 点 ， 然 后 使 用 副本 对 不 同 节 点 之 间 的 数据 进 
行 同步 。 








双向 数据 同步 











图 11-8: 使 用 双 主 数据 库 彼 此 通信 来 进行 数据 同步 


现在 让 我 们 考虑 一 下 ， 当 出 现 失败 后 会 发 生 什么 。 想 象 一 个 简单 的 场景 ， 比 如 两 个 数据 中 
心 之 间 的 网 络 断 开 了 。 此 时 同步 会 失败 ， 对 主 数 据 库 DC1 的 写 入 操作 不 会 传送 到 DC2 上 ， 
反之 亦 然 。 大 多 数 数据 库 支持 一 些 设置 和 某 种 队列 技术 ， 以 确保 之 后 我 们 可 以 恢复 ， 但 在 
此 期 间 会 发 生 什么 呢 ? 


11.11.1 牺牲 一 致 性 

假设 我 们 完全 不 停 用 库存 服务 。 如 果 现 在 我 更 改 了 DC1 上 的 数据 ，DC2 的 数据 库 将 看 不 
到 它 。 这 意味 着 ， 任 何 访问 我 们 在 DC2 上 库存 节点 的 请 求 ， 看 到 的 可 能 是 已 经 失效 的 数 
据 。 换 句 话 说， 我 们 的 系统 仍然 可 用 ， 两 个 节点 在 系统 分 区 之 后 仍然 能 够 服务 请 求 ， 但 失 
去 了 一 致 性 。 这 通常 被 称 为 一 个 AP 系统 。 我 们 无 法 保证 所 有 的 这 三 个 方面 。 


在 这 种 分 区 情况 下 ， 如 果 我 们 继续 接受 写 操作 ， 那 就 需要 接受 这 样 的 一 个 事实 ， 在 将 来 的 
某 个 时 候 它 们 不 得 不 重新 同步 。 分 区 持续 的 时 间 越 长 ， 这 个 重新 同步 就 会 越 困难 。 


现实 情况 是 ， 即 使 我 们 没有 数据 库 节 点 之 间 的 网 络 故障 ， 数 据 复制 也 不 是 立即 发 生 的 。 正 
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如 前 面 提 到 的 ， 系 统 放弃 一 致 性 以 保证 分 区 容忍 性 和 可 用 性 的 这 种 做 法 ， 被 称 为 最 终 一 至 
性 ; 也 就 是 说 ， 我 们 希望 在 将 来 的 某 个 时 候 ， 所 有 节点 都 能 看 到 更 新 后 的 数据 ， 但 它 不 会 
马上 发 生 ， 所 以 我 们 必须 清楚 用 户 将 看 到 失效 数据 的 可 能 性 。 


11.11.2 ”牺牲 可 用 性 

如 果 我 们 需要 保证 一 臻 性， 相反 想 要 放弃 其 他 方面 ， 会 发 生 什么 呢 》” 好 吧 ， 为 了 保证 一 致 
性 ， 每 个 数据 库 节点 需要 知道 ， 它 所 拥有 的 数据 副本 和 其 他 数据 库 节点 中 的 数据 完全 相 
同 。 现 在 在 分 区 情况 下 ， 如 果 数 据 库 节点 不 能 彼此 通信 ， 则 它们 无 法 协调 以 保证 一 致 性 。 
由 于 无 法 保证 一 致 性 ， 所 以 我 们 唯一 的 选择 就 是 拒绝 响应 请 求 。 换 名 话说 ， 我 们 牺 和 性 了 可 
用 性 。 系 统 是 一 致 的 和 分 区 容忍 的 ， 即 CP。 在 这 种 模式 下 ， 我 们 的 服务 必须 考虑 如 何 做 
功能 降级 ,， 直 到 分 区 恢复 以 及 数据 库 节 点 之 间 可 以 重新 同步 。 


保持 多 个 节点 之 间 的 一 致 性 是 非常 困难 的 。 有 些 事情 〈 可 能 所 有 的 ) 在 分 布 式 系统 中 会 更 
困难 。 请 想 一 下 ,假设 我 想 从 本 地 数据 库 节 点 读 取 一 条 记录 ， 如 何 确定 它 是 最 新 的 ? 我 必 
须 去 询问 另 一 个 布点 。 但 我 不 得 不 要 求 不 允许 更 新 数据 库 节 点 ， 直 到 读 取 完成 ， 换 句 话 
说 ,我 需要 启动 一 个 事务 ， 跨 多 个 数据 库 节点 读 取 以 确保 一 致 性 。 但 是 一 般 读 取 时 不 使 用 
事务 ， 不 是 吗 ? 因为 事务 性 读 取 很 慢 。 它 们 需要 锁 。 一 个 读 取 可 以 阻塞 整个 系统 。 系 统 所 
有 的 一 致 性 都 需要 一 定 程 度 的 锁 才 能 完成 。 


我 们 已 经 讨论 过 ， 分 布 式 系 统一 定 会 出 现 失败 的 情况 。 考 虑 跨 一 组 一 致 性 节点 的 事务 性 读 
取 。 我 要 求 在 启动 读 取 时 ， 远 程 节点 锁定 给 定 的 记录 。 等 我 完成 读 取 后 ， 告 诉 远 程 节点 释 
放 锁 ， 但 在 这 时 我 发 现 节 点 之 间 的 通信 失败 了 ， 现 在 怎么 办 ? 即使 是 在 单个 进程 的 系统 
中 ， 锁 都 很 容易 出 错 ， 在 分 布 式 系统 中 当然 就 更 难 做 好 了 。 


还 记得 我 们 在 第 5 章 讨论 的 分 布 式 事务 吗 ? 它们 很 具有 挑战 性 ， 核 心 原因 是 需要 确保 多 个 
节点 的 一 致 性 问题 。 


让 多 节点 实现 正确 的 一 致 性 太 难 了 ， 我 强烈 建议 如 果 你 需要 它 ， 不 要 试图 自己 发 明 使 用 的 
方式 。 相 反 , 选择 一 个 提供 这 些 特性 的 数据 存储 或 锁 服务 。 例 如 Consul (我 们 很 快 就 会 讨 
论 到 ) ， 设 计 实 现 了 一 个 强 一 致 性 的 键 / 值 存储 ， 在 多 个 节点 之 间 共享 配置 。 就 像 “ 人 们 不 
会 让 好 朋友 实现 自己 的 加 密 算法 "， 现 在 成 为 “人 们 不 会 让 好 朋友 实现 自己 的 分 布 式 一 致 
性 数据 存储 ”"。 如 果 你 认为 需要 实现 自己 的 CP 数据 存储 ， 首 先 请 阅读 完 所 有 相关 的 论文 ， 
然后 再 拿 一 个 博士 学 位 ， 最 后 准备 几 年 的 时 间 来 试 错 。 与 此 同时 ， 我 会 使 用 一 些 合适 的 、 
现成 的 工具 ， 或 者 放弃 一 致 性 ， 去 努力 构建 一 个 最 终 一 致 性 的 AP 系统 。 


11.11.3 牺牲 分 区 容忍 性 
我 们 要 挑选 CAP 中 的 两 点 ， 对 吗 ? 所 以 ， 我 们 有 最 终 一 致 的 AP 系统 。 我 们 有 一 致 的 ， 但 
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很 难 实现 和 扩展 的 CP 系统 。 为 什么 没有 CA 系统 呢 ? 嗯 ， 我 们 应 如 何 牺牲 分 区 容忍 性 
呢 ? 如 果 系 统 没 有 分 区 容忍 性 ， 就 不 能 跨 网 络 运 行 。 换 名 话说， 需要 在 本 地 运行 一 个 单独 
的 进程 。 所 以 ，CA 系统 在 分 布 式 系统 中 根本 是 不 存在 的 。 


11.114 AP 还 是 CP 


哪个 是 正确 的 ，AP 还 是 CP ? 好 吧 ， 现 实 中 要 视 情 况 而 定 。 因 为 我 们 知道 ， 在 人 们 构建 系 
统 的 过 程 中 需要 权衡 。 我 们 知道 AP 系统 扩展 更 容易 ， 而 且 构建 更 简单 ， 而 CP 系统 由 于 
要 支持 分 布 式 一 致 性 会 遇 到 更 多 的 挑战 ， 需 要 更 多 的 工作 。 但 我 们 可 能 不 了 解 这 种 权衡 对 
业务 的 影响 。 对 于 库存 系统 ， 如 果 一 个 记录 过 时 了 5 分 钟 ， 这 可 接受 吗 ? 如 果 答 案 是 肯定 
的 ， 那么 解决 方案 可 以 是 一 个 AP 系统 。 但 对 于 银行 客户 的 余额 来 说 呢 ? 能 使 用 过 时 的 数 
据 吗 ? 如果 不 了 解 操作 的 上 下 文 ， 我 们 无 法 知道 正确 的 做 法 是 什么 。 了 解 CAP 定理 只 
让 你 知道 这 些 权衡 的 存在 ， 以 及 需要 问 什 么 问题 。 


11.11.5 ”这 不 是 全 部 或 全 不 

我 们 的 系统 作为 一 个 整体 ， 不 需要 全 部 是 AP 或 CP 的。 目录 服务 可 能 是 AP 的 ， 因 为 我 们 
不 太 介 意 过 时 的 记录 。 但 库存 服务 可 能 需要 是 CP 的 ， 因 为 我 们 不 想 卖 给 客户 一 些 没 有 的 
东西 ， 然 后 不 得 不 道 娄 。 


个 别 服务 其 至 不 必 是 CP 或 AP 的 。 


让 我 们 考虑 一 下 积分 账户 服务 ， 那 里 存储 了 客户 已 经 积攒 的 忠诚 度 积分 的 记录 。 我 们 可 以 
不 在 平 显 示 给 客户 的 余额 是 失效 的 ， 但 当 涉及 更 新 余额 时 ， 我 们 必须 保证 一 致 性 ， 以 确保 
客户 不 会 使 用 比 他 们 实际 拥有 的 更 多 的 积分 。 这 个 微服 务 是 CP 还 是 AP 的 ， 还 是 两 个 都 
是 ? 事实 上 ， 我 们 所 做 的 是 把 关于 CAP 定理 的 权衡 ， 推 到 单独 服务 的 每 个 功能 中 去 。 


另 一 种 复杂 性 是 ， 即 使 对 于 一 致 性 或 可 用 性 而 言 ， 也 可 以 有 选择 地 部 分 采用 。 许 多 系统 人 
许 我 们 更 精细 地 做 权衡 。 例 如 ，Cassandra 允许 为 每 个 调用 做 不 同 的 权衡 。 因 此 如 果 需 要 
严格 的 一 致 性 ， 我 可 以 在 执行 一 个 读 取 时 ， 保 持 其 阻塞 直到 所 有 副本 回应 确认 数据 是 一 臻 
的 ， 或 直到 特定 数量 的 副本 做 出 回应 ， 或 仅仅 是 一 个 节点 做 出 回应 。 显 然 ， 如 果 我 保持 阻 
塞 直 到 所 有 副本 做 出 回应 ， 那 么 当 其 中 一 个 不 可 用 时 ， 我 会 被 阻塞 很 长 一 段 时 间 。 但 是 如 
果 我 满足 于 只 需要 一 个 节点 做 出 回应 ， 接 受 缺 乏 一 些 一 致 性 ， 这 样 可 以 降低 一 个 副本 不 可 
用 所 导致 的 影响 。 


尔 会 经 常 看 到 关于 有 人 打破 CAP 定理 的 文章 。 甚 实 他 们 并 没有 ， 他 们 所 做 的 其 实 是 创建 
一 个 系统 ， 其 中 有 些 功 能 是 CP 的 ， 有 些 是 AP 的 。CAP 定理 背后 有 相应 的 数学 证 明 。 尽 
管 在 学 校 尝试 过 多 次 ， 但 最 终 我 不 得 不 承认 数学 规律 是 无 法 打破 的 。 
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11.11.6 ”真实 世界 

我 们 讨论 过 的 大 部 分 ， 是 电子 世界 内 存 中 存储 的 比特 和 字 节 。 我 们 以 近 平 小 孩子 的 方式 谈 
论 一 致 性 ， 想 象 在 所 构建 系统 的 范围 内 ， 可 以 使 世界 停止 ， 让 一 切 都 有 意义 。 然 而 ， 我 们 
所 构建 的 只 是 现实 世界 的 一 个 映射 ， 有些 也 是 我 们 无 法 控制 的 ， 对 吗 ? 


让 我 们 重新 考虑 一 下 库存 系统 ， 它 会 映射 到 真实 世界 的 实体 物品 。 我 们 在 系统 里 记录 了 专 
辑 的 数量 ， 在 一 天 开始 时 ， 有 100 张 The Brakes 的 Give Blood 专辑 。 卖 了 一 张 后 ， 剩 99 
张 。 很 简单 ， 对 吧 ? 但 如 果 订 单 在 派送 的 过 程 中 ， 有 人 不 小 心 把 一 张 专 辑 掉 到 地 上 并 且 被 
踩 坏 了 ， 现 在 该 怎么 办 ? 我 们 的 系统 说 99 张 ， 但 货架 上 是 98 张 。 


如 果 我 们 要 让 库存 系统 保持 AP， 然 后 不 得 不 偶尔 需要 与 某 个 用 户 联系 ， 告 诉 他 已 购买 的 
一 个 专辑 实际 上 缺 货 ， 这 种 体验 如 何 ? 这 会 是 世界 上 最 糟糕 的 事情 吗 ? 事实 上 ， 这 样 做 更 
容易 构建 系统 及 对 其 进行 扩容 ， 同 时 保证 其 正确 性 。 


我 们 必须 认识 到 ， 无 论 系统 本 身 如 何 一 致 ， 它 们 也 无 法 知道 所 有 可 能 发 生 的 事情 ,- 特 别 是 
我 们 保存 的 是 现实 世界 的 记录 。 这 就 是 在 许多 情况 下 ，AP 系统 都 是 最 终 正 确 选 择 的 原因 
之 一 。 除 了 构建 CP 系统 的 复杂 性 外 ， 它 本 身 也 无 法 解决 我 们 面临 的 所 有 问题 。 


11.12 ”服务 发 现 


一 旦 你 已 经 拥有 不 少 微服 务 ， 关 注 点 就 会 不 可 避免 地 转向 它们 究竟 在 何 处 。 也 许 你 想 知 
道 ， 在 特定 环境 下 有 哪些 微服 务 在 运行 ， 据 此 你 才能 知道 哪些 应 该 被 监测 。 也 许 像 了 解 你 
的 账户 服务 在 哪里 一 样 简单 ， 以 便 其 消费 者 知道 在 哪里 能 找到 它 。 或 许 你 只 是 想 方 便 组 织 
里 的 开发 人 员 了 解 哪些 API 可 用 ， 以 避免 他 们 重新 发 明 轮子 。 从 广义 上 来 说 ， 上 述 所 有 用 
例 都 属于 服务 发 现 。 与 微服 务 世界 中 的 其 他 问题 类 似 ， 我 们 有 很 多 不 同 的 选项 来 处 理 它 。 


所 有 我 见 过 的 解决 方案 ， 都 会 把 事情 分 成 两 部 分 进行 处 理 。 首 先 ， 它 们 提供 了 一 些 机 制 ， 
让 一 个 实例 注册 并 告诉 所 有 人 :“ 我 在 这 里 ! ”其 次 ， 它 们 提供 了 一 种 方法 ,一 旦 服务 被 
注册 就 可 以 找到 它 。 然 后 ， 当 考虑 在 一 个 不 断 销毁 和 部 团 新 实例 的 环境 中 ， 服 务 发 现 会 变 
得 更 复杂 。 理 想 情 况 下 ， 我 们 希望 无 论 选 择 哪 种 解决 方案 ， 它 都 应 该 可 以 解决 这 些 问 题 。 


让 我 们 看 一 些 最 常见 的 服务 发 现 解 决 方案 ， 然 后 再 考虑 如 何 选 择 。 


DNS 


最 好 先 从 简单 的 开始 。DNS 让 我 们 将 一 个 名 称 与 一 个 或 多 个 机 器 的 IP 地 址 相关 联 。 例 如 ， 
我 们 可 以 决定 ， 总 能 在 accounts.musiccopr.com 上 发 现 账 户 服务 。 接 着 会 将 这 个 域名 关联 到 
运行 该 服务 的 主机 的 地址 上 , 或 者 关联 到 一 个 负载 均衡 器 ， 然 后 给 不 同 的 实例 分 发 负 
载 。 这 意味 着 ， 我 们 不 得 不 把 更 新 这 些 条 目 作为 部 署 服务 的 一 部 分 。 
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当 处 理 不 同 环境 中 的 服务 实例 时 ， 我 见 过 的 一 个 很 好 的 方式 是 使 用 域名 模板 。 例 如 ， 我 
们 可 以 使 用 一 个 形 如 “< 服务 名 >-< 环境 >.musiccorp.com” 的 模板 ， 然 后 基于 此 模板 生成 


accounts-uat.musiccorp.com 或 accounts-dev.musiccorp.com 这 样 的 域名 项 。 


处 理 不 同 环境 的 更 先进 的 方式 是 ， 在 不 同 的 环境 中 使 用 不 同 的 域名 服务 器 。 所 以 我 可 以 假 
定 ， 总 是 可 以 通过 accounts.musiccorp.com 找到 账户 服务 ， 但 根据 其 所 处 环境 的 不 同 ， 可 能 
会 解析 到 不 同 的 主机 上 。 如 果 你 已 经 将 环境 放 进 不 同 的 网 段 ， 并 且 可 以 很 容易 地 管理 DNS 
服务 器 和 条 目 ， 这 可 能 是 相当 简洁 的 解决 方式 ， 但 如 果 你 不 能 从 这 种 设置 中 获取 更 多 其 他 
的 好 处 ， 相 对 来 说 这 个 投入 就 太 大 了 。 


DNS 有 许多 优点 ， 其 中 最 主要 的 优点 是 它 是 标准 的 ， 并 且 大 家 对 这 个 标准 都 非常 熟悉 ， 儿 
乎 所 有 的 技术 栈 都 支持 它 。 不 幸 的 是 ， 尽 管 有 很 多 服务 可 以 管理 组 织 内 的 DNS， 但 其 中 很 
少 是 为 处 理 这 种 高 度 可 控制 主机 的 场景 而 设计 的 ， 这 使 得 更 新 DNS 条 目 有 些 痛 苗 。 亚 马 
逊 的 Route53 服务 在 这 方面 确实 做 得 不 错 ， 但 在 可 选 的 自 托 管 服务 中 ， 还 没有 像 它 一 样 好 
的 ， 虽然 (我 们 很 快 就 会 讨论 ) Consul 在 这 方面 可 能 会 提供 一 些 帮助 。 除 了 更 新 DNS 条 目 
存在 的 问题 ，DNS 规范 本 身 也 会 导致 一 些 问题 。 


域名 的 DNS 条 目 有 一 个 TITL。 客 户 端 可 以 认为 在 这 个 时 间 内 该 条 目 是 有 效 的 。 当 我 们 想 
要 更 改 域名 所 指向 的 主机 时 ， 需 要 更 新 该 条 目 ， 但 不 得 不 假定 客户 至 少 在 TTL 所 指示 的 时 
间 内 持 有 旧 的 他。DNS 可 以 在 多 个 地 方 缓存 条 目 (甚至 JVM 也 会 缓存 DNS 条 目 ， 除 非 你 
告诉 它 不 要 这 么 做 ) ， 它 们 被 缓存 的 地 方 越 多 ， 条 目 就 越 可 能 会 过 时 。 


绕 过 这 个 问题 的 一 种 方法 是 ， 如 图 11-9 所 示 ， 让 你 的 域名 条 目 指向 负载 均衡 器 ， 接 着 由 它 
来 指向 服务 实例 。 当 你 部 署 一 个 新 的 实例 时 ， 可 以 从 负载 均衡 器 中 移 除 旧 的 实例 ， 并 添加 
新 的 实例 。 有 些 人 使 用 DNS 轮 询 调度 ，DNS 条 目 会 指向 一 组 机 器 。 这 种 技术 存在 很 严重 
的 问题 ， 因 为 底层 主机 对 客户 端 是 不 可 见 的 ， 因 此 当 某 个 主机 有 问题 时 ， 很 难 停止 对 该 主 
机 的 请 求 路 由 。 





https://inventory.musicorp.net/ 














11-9: 使 用 DNS 指向 负载 均衡 器 ， 以 避免 失效 DNS 条 目的 问题 
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如 前 所 述 ，DNS 是 广为人知 并 被 广泛 支持 的 。 但 它 确实 有 一 两 个 缺点 。 我 建议 在 采用 更 复 
杂 的 方案 之 前 ， 调 查 一 下 它 是 否 适合 你 。 当 你 只 有 单个 节点 时 ， 使 用 DNS 直接 引用 主机 
就 可 以 了 。 但 对 于 那些 有 多 个 主机 实例 的 情况 ， 应 该 将 DNS 条 目 解析 到 负载 均衡 器 ， 它 
可 以 正确 地 把 单个 主机 移入 和 移出 服务 。 


11.13 动态 服务 注册 


作为 一 种 在 高 度 动态 的 环境 发 现 节 点 的 方法 ，DNS 存在 一 些 缺 点 ， 从 而 催生 了 大 量 的 替代 
系统 ， 其 中 大 部 分 包括 服务 注册 和 一 些 集中 的 注册 表 ， 注 册 表 进而 可 以 提供 查找 这 些 服务 
的 能 力 。 通 常 ， 这 些 系统 所 做 的 不 仅仅 是 服务 注册 和 服务 发 现 ， 这 可 能 也 不 是 一 件 好 事 。 
这 是 一 个 拥挤 的 领域 ， 因 此 只 看 其 中 几 个 选项 ， 让 你 大 概 了 解 一 下 有 哪些 选择 可 用 。 


11.13.1 Zookeeper 


Zookeeper (http://zookeeper.apache.org/) 最 初 是 作为 Hadoop 项 目的 一 部 分 进行 开发 的 。 它 
被 用 于 令 人 眼花 练 乱 的 众多 使 用 场景 中 ， 包 括 配 置 管 理 、 服 务 间 的 数据 同步 、leader 选举 、 
消息 队列 和 命名 服务 (对 我 们 有 用 的 )。 


像 许多 相似 类 型 的 系统 ，Zookeeper 依赖 于 在 集群 中 运行 大 量 的 节点 ， 以 提供 各 种 保障 。 
这 意味 着 ， 你 至 少 应 该 运行 三 个 Zookeeper 市 点 。Zookeeper 的 大 部 分 优点 ， 围 绕 在 确保 数 
据 在 这 些 节 点 间 安 全 地 复制 ， 以 及 当 节 点 故障 后 仍 能 保持 一 致 性 上 。 


Zookeeper 的 核心 是 提供 了 一 个 用 于 存储 信息 的 分 层 命名 空间 。 客 户 端 可 以 在 此 层次 结构 
中 ， 插 入 新 的 节点 ， 更 改 或 查询 它们 。 此 外 。 它 们 可 以 在 节点 上 添加 监控 功能 ， 以 便当 信 
息 更 改 时 节点 能 够 得 到 通知 。 这 意味 着 ， 我 们 可 以 在 这 个 结构 中 存储 服务 位 置 的 信息 ， 并 
且 可 以 作为 一 个 客户 端 来 接收 更 改 消息 。Zookeeper 通常 被 用 作 通 用 配置 存储 ， 因 此 你 也 
可 以 存储 与 特定 服务 相关 的 配置 ， 这 可 以 帮助 你 完成 类 似 动态 更 改 日 志 级 别 ， 或 关闭 正在 
运行 的 系统 特性 这 样 的 任务 。 我 个 人 倾向 于 不 使 用 Zookeerp 这 样 的 系统 作为 配置 源 ， 因 为 
我 认为 这 使 得 在 给 定 服务 中 定位 变 得 更 加 困难 。 


Zookeeper 本 身 所 提供 的 特性 是 相当 通用 的 ， 这 就 是 它 适用 于 这 么 多 场景 的 原因 。 你 可 以 
认为 它 只 是 信息 树 的 一 个 副本 ， 当 它 发 生 更 改 时 对 你 做 出 提醒 。 这 意味 着 ， 你 通常 会 在 它 
上 面 构建 一 些 功 能 ， 以 适应 你 的 特定 场景 。 幸 运 的 是 ， 大 多 数 语言 都 提供 了 客户 端 库 。 


在 众多 选项 中 ，Zookeeper 可 以 说 是 比较 老 的 ， 而 且 对 比 新 的 替代 品 ， 在 服务 发 现 方面 
没有 提供 很 多 现成 的 功能 。 即 便 如 此 ， 它 还 是 被 充分 使 用 和 测试 过 的 ， 并 得 到 了 广泛 使 
用 。Zookeeper 底层 算法 的 正确 实现 相当 困难 。 例 如 ， 我 知道 一 个 数据 库 供应 商 ， 只 使 用 
Zookeeper 作为 leader 选举 ， 以 确保 在 出 现 故障 的 情况 下 ， 能 够 正确 提升 主 节点 。 这 个 客 
户 认为 Zookeeper 太 重 量 级 了 ， 然 后 自己 实现 了 PAXOS 算法 来 雁 换 Zookeeper， 结 果 花 
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费 了 大 量 时 间 来 修复 其 中 的 缺陷 。 人 们 常 说 ， 你 不 应 该 实现 自己 的 加 密 算 法 库 。 我 想 延 
伸 这 个 说 法 ， 你 也 不 应 该 实现 自己 的 分 布 式 协调 系统 。 使 用 已 有 的 可 工作 的 选择 是 非常 
明智 的 。 


11.13:.2 Consul 


和 Zookeeper 一 样 ，Consul (http:Wwww.consulio/) 也 支持 配置 管理 和 服务 发 现 。 但 它 比 
Zookeeper 更 进一步 ， 为 这 些 关 键 使 用 场景 提供 了 更 多 的 支持 。 例 如 ， 它 为 服务 发 现 提供 
一 个 HTTP 接口 。Consul 提供 的 杀手 级 特性 之 一 是 ， 它 实际 上 提供 了 现成 的 DNS 服务 器 。 
具体 来 说 ， 对 于 指定 的 名 字 ， 它 能 提供 一 条 SRV 记录 ， 其 中 包含 IP 和 端口 。 这 意味 着 ， 
如 果 系 统 的 一 部 分 已 经 在 使 用 DNS， 并 且 支 持 SRV 记录 ， 你 就 可 以 直接 开始 使 用 Consul， 
而 无 需 对 现 有 系统 做 任何 更 改 。 


Consul 还 内 置 了 一 些 你 可 能 觉得 有 用 的 其 他 功能 ， 比 如 ， 对 节点 执行 健康 检查 的 能 
这 意味 着 ，Consul 提供 的 功能 与 其 他 专门 的 监测 工具 提供 的 有 重合 ， 虽然 你 更 可 能 使 
用 Consul 作为 这 些 信息 的 数据 源 ， 然 后 把 它 放 到 更 全 面 的 仪表 板 或 报警 系统 中 。 不 过 ， 
Consul 的 高 容错 设计 ， 以 及 在 处 理 大 量 使 用 临时 节点 系统 方面 的 专注 ， 确 实 让 我 好 奇 是 否 
在 一 些 场景 下 ， 它 最 终 可 以 取代 像 Nagios 和 Sensu 这 样 的 系统 。 


Consul 从 注册 服务 、 查 询 键 / 值 存储 到 插入 健康 检查 ， 都 使 用 的 是 RESTful HTTP 接口 ， 
这 使 集成 不 同 技术 栈 变 得 非常 简单 。 另 一 个 让 我 非常 喜欢 的 事情 是 ，Consul 背后 的 团队 把 
底层 集群 管理 拆 分 了 出 来 。Consul 底层 的 Serf 可 以 处 理 集群 中 的 节点 监测 、 故 障 管理 和 报 
警 。 然 后 Consul 在 其 之 上 添加 了 服务 发 现 和 配置 管理 。 这 种 关注 点 分 离 的 做 法 很 吸引 我 ， 
这 应 该 不 会 让 你 感到 奇怪 ， 因 为 这 个 主题 贯穿 本 书 | 


Consul 很 新 ， 鉴 于 它 使 用 算法 的 复杂 性 ， 我 通常 犹 移 是 否 要 推荐 用 它 来 完成 这 种 重要 的 工 
作 。 尽 管 如 此 ，Hashicorp， 其 背后 的 团队 ， 确 实在 创建 非常 有 用 的 开源 技术 方面 有 很 好 的 
记录 (Packer 和 Vagrand) ， 这 个 项 目 还 在 积极 发 展 中 ， 我 也 和 几 个 在 生产 环境 上 使 用 过 它 
的 人 聊 过 。 鉴 于 此 ， 我 认为 它 很 值得 一 看 。 


Eureka 


Netflix 的 开源 系统 Eureka (https://github.com/Netflix/eureka)， 追 随 Consul 和 Zookeeper 
等 系统 的 趋势 ， 但 它 没有 尝试 成 为 一 个 通用 配置 存储 。 实 际 上 ， 它 有 非常 确定 的 目标 使 用 
场景 。 


Eureka 还 提供 了 基本 的 负载 均衡 功能 ， 它 可 以 支持 服务 实例 的 基本 轮 询 调度 查找 。 它 提供 
了 一 个 基于 REST 的 接口 ， 因 此 你 可 以 编写 自己 的 客户 端 ， 或 者 使 用 它 自 己 提供 的 Java 客 
户 端 。Java 客户 端 提供 了 额外 的 功能 ， 如 对 实例 的 健康 检查 。 很 显然 ， 如 果 你 绕 过 Eureka 
的 客户 端 ， 直 接 使 用 REST 接口 ， 就 可 以 自行 实现 了 。 
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通过 客户 端 直接 处 理 服务 发 现 ， 可 以 避免 一 个 单独 的 进程 。 但 每 个 客户 端 需要 实现 服务 发 
现 。Netflix 在 JVM 上 进行 了 标准 化 ， 让 所 有 的 客户 端 都 使 用 Eureka 来 达到 这 个 目的 。 如 
果 你 在 一 个 多 语言 的 环境 中 ， 挑 战 会 更 大 。 


11.13.4 构造 你 自己 的 系统 

我 自己 用 过 并 且 在 其 他 地 方 见 过 的 一 种 方法 是 ， 构 造 你 自己 的 系统 。 曾 经 在 一 个 项 目 上 ， 
我 们 大 量 使 用 AWS， 它 提供 了 将 标签 添加 到 实例 的 能 力 。 当 启动 服务 实例 时 ， 我 使 用 标 
签 来 帮助 定义 实例 是 做 什么 的 。 这 人 允许 你 关联 一 些 丰富 的 元 数据 到 给 定 的 主机 ， 例 如 : 


。 服务 = 账户 
。 环境 = 生产 
。 版 本 =154 


我 可 以 使 用 AWS 的 API， 来 查询 与 给 定 AWS 账户 相关 联 的 所 有 实例 ， 找 到 所 关心 的 机 
器 。 在 这 里 ，AWS 本 身 处 理 与 每 个 实例 相关 联 的 元 数据 的 存储 ， 并 为 我 们 提供 查询 的 能 
力 。 然 后 我 构建 了 命令 行 工具 来 实现 与 这 些 实例 之 间 的 交互 ， 并 构建 仪表 板 使 状态 监控 变 
得 更 加 容易 ， 尤 其 是 当 你 让 每 个 服务 实例 都 提供 健康 检查 接口 时 。 


上 一 次 ， 我 没有 做 到 使 用 AWS 的 API 来 发 现 服务 依赖 关系 这 一 步 ， 但 事实 上 我 可 以 做 到 。 
很 明显 ， 如 果 你 希望 当下 游 服务 的 位 置 发 生变 化 时 ， 上 游 服 务 能 得 到 提醒 ， 就 需要 自己 构 
建 系统 。 


11.13.5 别 忘 了 人 

到 目前 为 止 ， 我 们 看 过 的 系统 让 服务 实例 注册 自己 并 查找 所 需要 通信 的 其 他 服务 变 得 非常 
容易 。 但 是 我 们 有 时 也 想 要 这 些 信息 。 无 论 你 选择 什么 样 的 系统 ， 要 确保 有 工具 能 让 你 在 
这 些 注册 中 心 上 生 成 报告 和 仪表 盘 ， 显 示 给 人 看 ， 而 不 仅仅 是 给 电脑 看 。 


11.14 ”文档 服务 


通过 将 系统 分 解 为 更 细 粒 度 的 微服 务 ， 我 们 希望 以 API 的 形式 暴露 出 很 多 接 颖 ， 人 们 可 以 
用 它 来 做 很 多 很 棒 的 事情 。 如 果 正 确 地 进行 了 服务 发 现 ， 就 能 够 知道 东西 在 哪里 。 但 是 我 
们 如 何 知道 这 些 东西 的 用 处 ， 或 如 何 使 用 它们 ? 一 个 明显 的 选择 是 API 的 文档 。 当 然 ， 文 
档 往 往 会 过 时 。 理 想 情况 下 ， 我 们 会 确保 文档 总 是 和 最 新 的 微服 务 API 同步 ， 并 当 大 家 需 
要 知道 服务 在 哪里 时 ， 能 够 很 容易 地 看 到 这 个 文档 。 两 种 不 同 的 技术 ，Swagger 和 HAL， 
试图 使 这 成 为 现实 ， 这 两 个 都 值得 一 看 。 
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11.14.1 Swagger 


Swagger 让 你 描述 API， 产 生 一 个 很 友好 的 Web 用 户 界面 ， 使 你 可 以 查看 文档 并 通过 Web 
浏览 器 与 API 交互 。 能 够 直接 执行 请 求 是 一 个 非常 棒 的 特性 。 例 如 ， 你 可 以 定义 POST 模 
板 ， 明 确 微 服务 期 望 的 内 容 是 什么 样 的 ，。 


要 实现 这 些 ，Swagger 需要 服务 提供 与 其 格式 相 匹 配 的 附属 文件 。Swagger 有 大 量 的 不 同 
语言 的 库 可 以 帮 你 做 这 些 。 例 如 ， 对 于 Java， 你 可 以 对 方法 使 用 注解 来 匹配 API 调用 ， 然 
后 就 可 以 生成 相应 的 文件 。 


我 喜欢 Swagger 提供 的 终端 用 户 体验 ， 但 它 为 超 媒体 核心 中 的 增 量 探索 概念 做 得 很 少 。 尽 
管 如 此 ， 它 仍 是 一 个 很 好 的 公开 服务 文档 的 方法 。 


11.14.2 HAL 和 HAL 浏 览 


HAL (Hypertext Application Language， 超 文本 应 用 程序 语言 ，http://stateless.co/hal_ 
specification.html) 本 身 是 一 个 标准 ， 用 来 描述 我 们 公开 的 超 媒体 控制 的 标准 。 正 如 我 们 
在 第 4 章 中 提 过 的 ， 超 媒体 控制 是 一 种 方法 ， 它 允许 客户 逐步 探索 我 们 的 API 来 使 用 服 
务 ， 并 且 其 耦合 度 比 其 他 集成 技术 都 低 。 如 果 你 决定 采用 HAL 的 超 媒体 标准 ， 那 么 不 仅 
可 以 利用 广泛 使 用 的 客户 端 库 消费 API (在 撰写 本 文 时 ，HAL 维基 列 出 了 多 种 不 同 语言 
的 50 个 支持 库 )， 也 可 以 使 用 HAL 的 浏览 器 ， 它 提供 了 一 种 通过 Web 浏览 器 探索 API 
的 方式 。 


就 像 Swagger， 这 个 用 户 界面 不 仅 可 以 充当 活 文档 ， 还 可 以 对 服务 本 身 执行 调用 。 虽 然 它 
的 执行 调用 并 不 是 那么 顺畅 。 使 用 Swagger 时 ， 你 可 以 对 像 发 一 个 POST 请 求 这 样 的 事情 
定义 模板 ， 而 使 用 HAL 时 你 需要 自己 做 更 多 。 另 一 方面 是 ， 超 媒体 控制 的 内 在 能 力 能 够 
让 你 更 有 效 地 探索 API 公开 的 服务 ， 因 为 就 可 以 很 容易 地 跟随 链接 。 事 实证 明 ，Web 浏览 
器 很 擅长 做 这 种 事情 |! 


跟 Swagger 不 同 ， 驱 动 这 个 文档 的 所 有 信息 和 沙 箱 都 被 艾 入 在 超 媒体 控制 中 。 这 是 一 把 双 
刃 剑 。 如 果 你 已 经 在 使 用 超 媒体 控制 ， 几 乎 可 以 毫 不 费力 地 提供 一 个 HAL 浏览 器 ， 让 客 
户 探索 你 的 API。 然 而 ， 如 果 设 有 使 用 超 媒 体 ， 那 你 要 么 不 使 用 HAL， 要 么 改造 你 的 API 
来 使 用 超 媒 体 ， 这 个 行为 很 可 能 会 破坏 现 有 的 消费 者 。 


HAL 还 描述 了 一 些 超 媒体 标准 ， 并 有 相应 的 客户 端 支持 库 ， 这 是 一 个 额外 的 好 处 ， 也 许 
这 就 是 在 已 使 用 超 媒 体 控件 的 人 中 ， 使 用 HAL 作为 API 文档 比 使 用 Swagger 更 多 的 原因 。 
如 果 你 在 使 用 超 媒体 ， 我 更 推荐 使 用 HAL 而 不 是 Swagger。 但 是 如 果 你 没有 使 用 超 媒体 ， 
也 不 能 判断 将 来 是 否 切 换 ， 我 肯定 会 建议 使 用 Swagger。 
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11.15 自 描 述 系统 


在 SOA 的 早期 演化 过 程 中 ，UDDI (Universal Description, Discovery, and Integration， 通 用 
描述 、 发 现 与 集成 服务 ) 标准 的 出 现 ， 帮 助人 们 理解 了 哪些 服务 正在 运行 。 这 些 方法 都 相 
当 重 量 级 ， 并 催生 出 一 些 替 代 技 术 去 试图 理解 我 们 的 系统 。Martin Fowler 提出 了 人 文 注 册 
表 (http://martinfowler.com/bliki/HumaneRegistry.html) 的 概念 ， 它 是 一 个 更 轻 量 级 的 方法 ， 
在 这 个 方法 中 有 一 个 地 方 ， 可 以 让 人 们 记录 组 织 中 有 关 服 务 的 信息 ， 和 维基 一 样 简单 。 


有 一 个 关于 我 们 系统 行为 的 全 景 图 是 非常 重要 的 ， 特 别 是 在 规模 化 后 。 我 们 已 经 讨论 了 许 
多 不 同 的 技术 ， 它 们 会 帮助 我 们 理解 系统 。 通 过 追踪 下 游 服 务 的 健康 状态 和 使 用 关联 标识 ， 
可 以 帮助 我 们 识别 调用 链 ， 得 到 关于 服务 如 何 交互 的 真实 数据 。 使 用 像 Consul 这 样 的 服务 
发 现 系统 ， 可 以 看 到 我 们 的 微服 务 在 哪里 运行 。HAL 让 我 们 在 任何 给 定 的 接口 上 查看 有 哪 
些 功 能 ， 同 时 健康 检查 页 面 和 监控 系统 ， 让 我 们 知道 系统 整体 的 和 单个 服务 的 健康 状态 。 


所 有 这 些 信息 都 能 以 编程 的 方式 使 用 。 所 有 这 些 数 据 使 我 们 的 人 文 注册 表 ， 比 一 个 毫 无 疑 
问 会 过 时 的 简单 维基 页 面 更 强大 。 所 以 我 们 应 该 使 用 它 来 显示 系统 发 出 的 所 有 信息 。 通 过 
创建 自 定 勾 的 仪表 盘 ， 我 们 可 以 将 大 量 信息 结合 在 一 起 ， 帮 助 我 们 理解 生态 系统 。 


无 论 如 何 ， 从 活 系统 中 抽取 出 一 些 数 据 ， 来 形成 静态 Web 页 面 或 维基 是 一 个 很 好 的 开始 。 
随 着 时 间 的 推移 ， 获 取 的 信息 越 来 越 多 。 简 化 这 些 信息 的 获取 ， 是 系统 运行 规模 化 后 管理 
浮现 出 来 的 复杂 性 的 关键 工具 。 


11.16 小结 


作为 一 种 设计 方法 ， 微 服务 还 相当 年 轻 ， 所 以 虽然 我 们 有 一 些 很 好 的 经 验 可 以 借鉴 ， 但 我 
相信 未 来 几 年 ， 会 产生 更 多 有 用 的 模式 来 处 理 规模 化 。 尽 管 如 此 ， 我 希望 本 章 列 出 的 一 些 
步骤 ， 可 供 你 在 规模 化 微服 务 的 旅途 中 借鉴 ， 并 打下 良好 的 基础 。 

除了 本 章 所 涵盖 的 内 容 ， 我 推荐 Nygard 的 优秀 图 书 Release 1t/。 在 书 里 他 分 享 了 一 系列 关 
于 系统 故障 的 故事 ， 以 及 一 些 处 理 它们 的 模式 。 这 本 书 很 值得 一 读 (事实 上 ， 我 甚至 认为 
它 应 该 成 为 构建 任何 规模 化 系统 的 必 读 书籍 )。 

我 们 已 经 讨论 了 很 多 ， 并 已 经 接近 尾声 了 。 在 下 一 章 也 就 是 最 后 一 章 中 ， 我 会 综合 所 有 内 
容 ， 总 结 本 书 所 学 的 内 容 。 
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在 前 面 的 章节 我 们 已 经 讨论 了 相当 多 的 内 容 ， 从 微服 务 的 定义 到 如 何 划分 它 的 边界 ， 从 集 
成 技术 到 安全 和 监控 。 我 们 甚至 还 探讨 了 微服 务 架构 下 ， 架 构 师 的 角色 应 该 是 什么 样子 
的 。 虽 然 每 个 微服 务 本 身 很 小 ， 但 是 它 对 架构 的 影响 却 很 广 很 大 ;所 以 还 是 需要 学 习 很 多 
东西 。 在 本 章 ， 我 会 尝试 总 结 一 些 贯穿 全 书 的 关键 点 。 


12.1 微服 务 的 原则 


我 们 在 第 2 章 讨 论 过 ， 微 服务 原则 可 以 发 挥 什么 样 的 作用 。 它 们 主要 描述 了 该 如 何 做 ， 以 
及 为 什么 应 该 这 样 做 的 问题 。 这 些 原则 可 以 帮助 我 们 在 构建 系统 时 做 出 各 种 决定 。 你 绝对 
应 该 定义 自己 的 原则 ， 但 微服 务 的 一 些 关键 原则 ， 如 图 12-1 总 结 的 ， 我 认为 值得 在 这 里 详 
述 。 这 些 原则 将 帮助 我 们 ， 创 建 出 一 系列 可 以 很 好 地 进行 协同 工作 的 自治 的 小 服务 。 到 目 
前 为 止 ， 微 服务 的 所 有 内 容 我 们 在 本 书 中 已 经 至 少 提 过 一 次 了 ， 所 以 本 章 没有 新 的 内 容 ， 
但 是 精炼 出 它们 的 核心 精华 也 是 有 价值 的 。 

你 可 以 选择 全 部 采用 这 些 原 则 ,或 者 定制 采用 一 些 在 自己 的 组 织 中 有 意义 的 部 分 。 但 请 注 


意 ， 组 合 使 用 这 些 原则 的 价值 : 整体 使 用 的 价值 要 大 于 部 分 使 用 之 和 。 所 以 ， 如 果 决 定 要 
舍弃 其 中 一 个 原则 ， 请 确保 你 明白 其 带 来 的 损失 。 


对 于 每 个 原则 ， 我 已 经 在 本 书 中 尝试 列 出 了 一 些 支持 它们 的 实践 。 俗 话说 的 好 : 条 条 道路 
通 罗 马 。 你 可 能 会 使 用 自己 的 方式 来 实现 这 些 原则 ， 但 下 面 列 出 的 实践 能 够 给 你 带 来 一 个 
好 的 开始 。 
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12-1: 微服 务 的 原则 


12.1.1 围绕 业务 概念 建 模 


经 验 表 明 ， 围 绕 业 务 的 限界 上 下 文 定义 的 接口 ， 比 围绕 技术 概念 定义 的 接口 更 加 稳定 。 针 
对 系统 如 何 工作 这 个 领域 进行 建 模 ， 不 仅 可 以 帮助 我 们 形成 更 稳定 的 接口 ， 也 能 确保 我 们 
能 够 更 好 地 反映 业务 流程 的 变化 。 使 用 限界 上 下 文 来 定义 可 能 的 领域 边界 。 


12.1.2 接受 自动 化 文化 

微服 务 引 入 了 很 多 复杂 性 ， 其 中 的 关键 部 分 是 ， 我 们 不 得 不 管理 大 量 的 服务 。 解 决 这 个 问 
题 的 一 个 关键 方法 是 ， 拥 抱 自动 化 文化 。 前 期 花费 一 定 的 成 本 ， 构 建 支持 微服 务 的 工具 是 
很 有 意义 的 。 自 动 化 测试 必 不 可 少 ， 因 为 相 比 单 块 系统 ， 确 保 我 们 大 量 的 服务 能 正常 工作 
是 一 个 更 复杂 的 过 程 。 调 用 一 个 统一 的 命令 行 ， 以 相同 的 方式 把 系统 部 署 到 各 个 环境 是 一 
个 很 有 用 的 实践 ， 这 也 是 采用 桂 续 交 付 对 每 次 提交 后 的 产品 质量 进行 快速 反馈 的 一 个 关键 
部 分 。 


请 考虑 使 用 环境 定义 来 帮助 你 明确 不 同 环境 间 的 差异 ， 但 同时 保持 使 用 统一 的 方式 进行 部 
署 的 能 力 。 考 虑 创建 自 定 义 镜像 来 加 快 部 署 ， 并 且 创 建 全 自动 化 不 可 变 服务 器 ， 这 会 更 容 
易 定 位 系统 本 身 的 问题 。 


12.1.3 ”隐藏 内 部 实现 细节 

为 了 使 一 个 服务 独立 于 其 他 服务 ， 最 大 化 独自 演化 的 能 力 ， 隐 藏 实现 细节 至 关 重 要 。 限 界 
上 下 文 建 模 在 这 方面 可 以 提供 帮助 ， 因 为 它 可 以 帮助 我 们 关注 哪些 模型 应 该 共享 ， 哪 些 应 
该 隐藏 。 服 务 还 应 该 隐藏 它们 的 数据 库 ， 以 避免 陷 人 数据 库 耦 合 ， 这 在 传统 的 面向 服务 的 
架构 中 也 是 最 常见 的 一 种 耦合 类 型 。 使 用 数据 系 (data pump) 或 事件 数据 泵 (event data 
pump)， 将 跨 多 个 服务 的 数据 整合 到 一 起 ， 以 实现 报表 的 功能 。 
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在 可 能 的 情况 下 ， 尽 量 选择 与 技术 无 关 的 API， 这 能 让 你 自由 地 选择 使 用 不 同 的 技术 栈 。 
请 考虑 使 用 REST， 它 将 内 部 和 外 部 的 实现 细节 分 离 方式 规范 化 ， 即 使 是 使 用 RPC， 你 仍 
然 可 以 采用 这 些 想 法 。 


12.1.4- 让 一 切 都 去 中 心 化 

为 了 最 大 化 微服 务 能 带 来 的 自治 性 ， 我 们 需要 持续 寻找 机 会 ， 给 拥有 服务 的 团队 委派 决策 
和 控制 权 。 在 这 个 过 程 初期 ， 只 要 有 可 能 ， 就 尝试 使 用 资源 自助 服务 ， 人 允许 人 们 按 需 部 署 
软件 ， 使 开发 和 测试 尽 可 能 简单 ， 并 且 和 避免 让 独立 的 团队 来 做 这 些 事 。 


在 这 个 旅程 中 ， 确 保 团队 保持 对 服务 的 所 有 权 是 重要 的 一 步 ， 理 想 情况 下 ， 其 至 可 以 让 团 
队 自 己 决定 什么 时 候 让 那些 更 改 上 线 。 使 用 内 部 开源 模式 ,确保 人 们 可 以 更 改 其 他 团队 拥 
有 的 服务 ， 不 过 请 注意 ， 实 现 这 种 模式 需要 很 多 的 工作 量 。 让 团队 与 组 织 保持 一 致 ， 从 而 
使 康 威 定律 起 作用 ， 并 帮助 正在 构建 面向 业务 服务 的 团队 ， 让 他 们 成 为 其 构建 的 业务 领域 
的 专家 。 一 些 全 局 的 引导 是 必要 的 ， 尝 试 使 用 共同 治理 模型 ， 使 团队 的 每 个 成 员 共 同 对 系 
统 技术 愿景 的 演化 负责 。 


像 企业 服务 总 线 或 服务 编 配 系统 这 样 的 方案 ,会 导致 业务 逻辑 的 中 心 化 和 哑 服 务 ， 应 该 避 
免 使 用 它们 。 使 用 协同 来 代 殖 编排 或 哑 中 间 件 ， 使 用 智能 问 点 (smart endpoint) 确保 相关 
的 逻辑 和 数据 ， 在 服务 限界 内 能 保持 服务 的 内 聚 性 。 


12.1.5 可 独立 部 署 


我 们 应 当 始 终 努 力 确保 微服 务 可 以 独立 部 署 。 甚 至 当 需 要 做 不 兼容 更 改 时 ， 我 们 也 应 该 同 
时 提供 新 旧 两 个 版 本 ， 允 许 消费 者 慢 慢 迁移 到 新 版 本 。 这 能 够 帮助 我 们 加 快 新 功能 的 发 布 
速度 。 拥 有 这 些微 服务 的 团队 ， 也 能 够 越 来 越 具有 自治 性 ， 因 为 他 们 不 需要 在 部 署 过 程 中 
不 断 地 做 编 配 。 当 使 用 基于 RPC 的 集成 时 ， 避 免 使 用 像 Java RMI 提供 的 那 种 使 用 生成 的 
桩 代码 ， 紧 密 绑 定 客户 端 / 服 务 器 的 技术 。 


通过 采用 单 服务 单 主机 模式 ， 可 以 减少 部 署 一 个 服务 引发 的 副作用 ， 比 如 影响 另 一 个 完全 
不 相干 的 服务 。 请 考虑 使 用 蓝 / 绿 部 署 或 金 丝 乱 部 署 技 术 ， 区 分 部 署 和 发 布 ， 降 低 发 布 出 
错 的 风险 。 使 用 消费 者 驱动 的 契约 测试 ， 在 破坏 性 的 更 改 发 生前 捕获 它们 。 

请 记 住 ， 你 可 以 更 改 单个 服务 ， 然 后 把 它 部 署 到 生产 环境 ， 无 需 联动 地 部 署 其 他 任何 服 
务 ， 这 应 该 是 常态 ， 而 不 是 例外 。 你 的 消费 者 应 该 自己 决定 何 时 更 新 ， 你 需要 适应 他 们 。 


12.1.6 ”隔离 失败 
微服 务 架 构 能 比 单 块 架构 更 有 具 弹 性， 前 提 是 我 们 了 解 系统 的 故障 模式 ， 并 做 出 相应 的 计 
划 。 如 果 我 们 不 考虑 调用 下 游 可 能 会 失败 的 事实 ， 系 统 会 遭受 灾难 性 的 级 联 故障 ， 系 统 也 


sd 
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会 比 以 前 更 加 脆弱 。 


当 使 用 网 络 调用 时 ， 不 要 像 使 用 本 地 调用 那样 处 理 远程 调用 ， 因 为 这 样 会 隐藏 不 同 的 故障 
模式 。 所 以 确保 使 用 的 客户 端 库 ， 没 有 对 远程 调用 进行 过 度 的 抽象 。 


如 果 我 们 心中 持 有 反 脆 弱 的 信条 ， 预 期 在 任何 地 方 都 会 发 生 故 障 ， 这 说 明 我 们 正 走 在 正确 
的 路 上 。 请 确保 正确 设置 你 的 超时 ， 了 解 何 时 及 如 何 使 用 舱 壁 和 断路 器 ， 来 限制 故障 组 件 
的 连带 影响 。 如 果 系 统 只 有 一 部 分 行为 不 正常 ， 要 了 解 其 对 用 户 的 影响 。 知 道 网 络 分 区 可 
能 意味 着 什么 ， 以 及 在 特定 情况 下 牺 和 性 可 用 性 或 一 致 性 是 否 是 正确 的 决定 。 


12.1.7 ”高度 可 观察 

我 们 不 能 依靠 观察 单一 服务 实例 ， 或 一 台 服 务 器 的 行为 ， 来 看 系统 是 否 运行 正常 。 相 反 ， 
我 们 需要 从 整体 上 看 待 正在 发 生 的 事情 。 通 过 广 入 合成 事务 到 你 的 系统 ， 模 拟 真 实用 户 的 
行为 ， 从 而 使 用 语义 监控 来 查看 系统 是 否 运行 正常 。 和 聚合 你 的 日 志和 数据 ， 这 样 当 你 遇 到 
问题 时 ， 就 可 以 深入 分 析 原 因 。 而 当 需 要 重 现 令 人 讨厌 的 问题 ， 或 仅仅 查看 你 的 系统 在 生 
产 环 境 是 如 何 交 互 时 ， 关 联 标识 可 以 帮助 你 跟踪 系统 间 的 调用 。 


12.2 ”什么 时 候 你 不 应 该 使 用 微服 务 


这 个 问题 我 被 问 过 很 多 次 了 。 我 的 第 一 条 建议 是 ， 你 越 不 了 解 一 个 领域 ， 为 服务 找到 合适 
的 限界 上 下 文 就 越 难 。 正 如 我 们 前 面 所 讨论 的 ， 服 务 的 界限 划分 错误 ， 可 能 会 导致 不 得 不 
频繁 地 更 改 服务 间 的 协作 ， 而 这 种 更 改 成 本 很 高 。 所 以 ， 如 果 你 不 了 解 一 个 单 块 系统 领域 
的 话 ， 在 划分 服务 之 前 ， 第 一 件 事 情 是 花 一 些 时 间 了 解 系统 是 做 什么 的 ， 然 后 尝试 识别 出 
清晰 的 模块 边界 。 


从 头 开发 也 很 具有 挑战 性 。 不 仅仅 因为 其 领域 可 能 是 新 的 ， 还 因为 对 已 有 东西 进行 分 类 ， 
要 比 对 不 存在 的 东西 进行 分 类 要 容易 得 多 ! 因此 ， 请 再 次 考虑 首先 构建 单 块 系统 ， 当 稳定 
以 后 再 进行 拆 分 。 

当 微 服务 规模 化 以 后 ， 你 面临 的 许多 挑战 会 变 得 更 加 严峻 。 如 果 你 主要 采用 手工 的 方式 做 
事情 ， 当 只 有 一 两 个 服务 时 还 可 以 应 对 ， 如 果 是 5 到 10 个 服务 呢 ? 坚持 老式 的 监控 实践 ， 
查看 诸如 CPU 和 内 存 指标 的 这 种 方式 ， 在 只 有 几 个 服务 时 还 好 ， 但 服务 间 的 协作 越 多 ， 
你 就 会 越 痛苦 。 随 着 增加 更 多 的 服务 ， 你 会 发 现 自己 在 不 断 触及 这 些 痛 点 。 我 希望 这 本 书 
的 建议 ， 可 以 帮 你 预见 其 中 的 一 些 问题 ， 并 且 了 解 一 些 如 何 解决 这 些 问题 的 具体 技巧 。 我 
之 前 说 过 ，REA 和 Gilt 在 有 能 力 大 规模 使 用 微服 务 之 前 ， 花 费 了 一 定时 间 来 构建 工具 和 实 
践 ， 帮 助 管理 微服 务 。 这 些 经 历 让 我 更 加 相信 逐步 开始 的 重要 性 ， 它 可 以 帮助 你 了 解 组 织 
改变 的 意愿 和 能 力 ， 这 将 有 助 于 正确 地 采用 微服 务 。 





12.3 ”临别 赠言 


微服 务 架 构 会 给 你 带 来 更 多 的 选择 ， 也 需要 你 做 更 多 的 决策 。 相 比 简单 的 单 块 系统 ， 在 微 
服务 的 世界 里 ， 做 决策 是 一 个 更 为 常见 的 活动 。 我 可 以 保证 ， 你 总 会 在 一 些 决策 上 出 错 。 
既然 知道 了 我 们 难免 要 做 一 些 错 事 ， 那 该 怎么 办 呢 ? 嗯 ， 我 会 建议 你 ， 尽 量 缩小 每 个 决策 
的 影响 范围 。 这 样 一 来 ， 如 果 做 错 了 ， 只 会 影响 系统 的 一 小 部 分 。 学 会 拥抱 演进 式 架构 的 
概念 ， 在 这 种 概念 下 ， 系 统 会 在 你 学 到 一 些 新 东西 之 后 扩展 和 变化 。 不 要 去 想 大 爆炸 式 的 
重 写 ， 取 而 代 之 的 是 随 着 时 间 的 推移 ， 逐 步 对 系统 进行 一 系列 更 改 ， 这 样 做 可 以 保持 系统 
的 灵活 性 。 


希望 到 目前 为 止 ， 我 给 你 分 享 了 足够 多 的 知识 和 经 验 ， 能 帮助 你 决定 微服 务 是 否 适 合 你 。 
如 果 微 服务 适合 你 ， 我 希望 你 把 它 看 作 一 个 旅程 ， 而 不 是 终点 。 逐 步 前 行 。 一 块 块 地 拆 分 
你 的 系统 ， 逐 步 学 习 。 习 惯 这 一 点 : 从 很 多 方面 来 说 ， 持 续 地 改变 和 演进 系统 ， 这 条 规则 
比 我 在 本 书 中 分 享 给 你 的 任何 一 个 知识 都 要 重要 。 变 化 是 无 法 避免 的 ， 所 以 ， 拥 抱 它 吧 ! 





关于 作者 


Sam Newman 是 ThoughtWorks 的 一 名 技术 专家 。 目 前 ， 他 一 部 分 时 间 用 在 客户 的 项 目 上 ， 
一 部 分 时 间 用 于 ThoughtWorks 的 内 部 系统 架构 上 。 他 曾 与 全 球 多 个 领域 的 多 家 公司 合作 
过 ， 常 常 同时 涉及 开发 和 运 维 。 如 果 你 问 他 是 做 什么 的 ， 他 会 说 :“ 我 和 人 们 一 起 构建 更 
好 的 软件 系统 。 他 写 过 文章 ， 在 会 议 上 发 表 过 演讲 ， 偶 尔 也 会 给 开源 项 目 提 交 些 代码 。 


关于 封面 


本 书 封 面 上 的 动物 是 蜜蜂 。 在 20 000 种 已 知 的 蜂 类 中 ， 只 有 7 种 被 认为 是 蜜蜂 。 蜜 蜂 之 所 
以 不 同 ， 是 因为 它们 采 食 花粉 和 花蜜 酿造 蜂蜜 ， 并 用 蜂蜡 建造 蜂 业 。 人 类 养 蜂 采 蜜 已 传承 
数 千 年 之 久 。 


一 个 蜂 灶 里 有 几 千 到 几 万 只 蜜蜂 ， 蜂 群 内 部 分 工 明 确 。 它 们 有 三 个 社 群 阶级 蜂 后 、 雄 蜂 
和 工蜂 。 每 个 蜂 梨 有 一 个 蜂 后 ， 在 一 次 飞行 交配 后 能 保持 3~5 年 的 产 卵 期 ， 每 日 产 卵 可 达 
2000 个 。 雄 蜂 在 蜂 群 中 的 作用 是 与 蜂 后 交配 (交配 后 它们 的 带刺 生殖 器 会 被 括 离 身体 ， 不 
久 便 会 死亡 ) 。 工 蜂 是 繁殖 器 官 发 育 不 完善 的 雌性 蜜蜂 。 工 蜂 最 为 忙碌 ， 它们 在 一 生 中 承 
任 了 很 多 职责 ， 例 如 保育 、 筑 代 、 储 存 花 蜜 和 花粉 、 放 哨 、 清 洁 和 采 蜜 。 采 蜜蜂 会 以 特别 
的 兽 足 方式 告知 同伴 采 密 的 讯息 。 

三 个 社 群 阶级 的 蜜蜂 外 形 相 似 ， 有 两 对 起 膀 、 关 条 腿 ， 身 体 分 成 头 、 胸 和 腹部 。 全 身 披 密 
密 的 黄 黑 相 间 的 短线 毛 。 它 们 通过 消化 和 转化 花蜜 中 的 多 糖 而 酿造 出 蜂蜜 。 


蜜蜂 对 农业 生产 至 关 重 要 ， 因 为 它们 在 采集 花粉 和 花蜜 的 过 程 中 ,会 给 农作物 和 其 他 开花 
植物 传播 花粉 。 每 个 蜂 房 的 蜜蜂 平均 一 年 可 以 收集 66 磅 的 花粉 。 近 年 来 ， 许 多 蜜蜂 种 类 
的 数目 大 幅 减少 引发 人 们 的 关注 ， 被 称 为 “ 蜂 群 衰竭 失调 ”。 目 前 还 不 清楚 导致 这 种 现象 
的 原因 是 什么 ， 一些 理论 包括 : 寄生 虫害 、 杀 虫 剂 的 使 用 或 疾病 ， 但 迄今 为 止 ， 还 没有 发 
现 有 效 的 预防 措施 。 


O"Reilly 封面 上 的 许多 动物 都 濒临 灭绝 ， 它 们 对 这 个 世界 都 是 非常 重要 的 。 想 要 了 解 更 多 
关于 如 何 帮 助 它们 的 信息 ， 请 访问 animals.oreilly.com。 


封面 图 片 出 自 Johnson 的 Natural History。 
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过 去 十 年 中 ， 分 布 式 系统 的 粒度 变 得 越 来 越 细 ， 包 含 大 量 代码 的 单 块 应 “微服 务 架 构 有 很 多 吸引 人 的 地 
用 逐渐 转变 为 自 包含 的 微服 务 。 但 开发 微服 务 系统 也 有 一 些 让 人 头疼 的 。 方 ， 但 一 不 留神 ， 就 会 在 微服 
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管理 和 演化 微服 务 架 构 时 必须 考虑 的 问题 ， 并 给 出 了 实用 的 建议 。 陷阱 。 这 本 书 会 帮助 你 确定 微 
服务 这 条 路 是 否 适合 你 ， 以 及 
本 书 不 但 详细 地 阐述 了 微服 务 的 基本 概念 ， 而 且 还 深入 探究 了 如 何 对 自 如 何在 你 的 旅程 中 避免 这 些 陷 
治 服务 进行 建 模 、 集 成 、 测 试 、 部 署 及 监控 。 书 中 虚构 了 某 个 领域 的 ~ 阱 .， 
家 公司 ， 来 帮助 读者 学 习 微服 务 架构 是 如 何 影响 一 个 领域 的 。 Re 
世界 级 软件 开发 大 师 ， 
四 了 解 微服 务 如 何 将 系统 设计 与 组 织 目标 相 匹配 ThoughtWorks 首 席 科 学 家 
目 掌握 将 一 个 服务 和 现 有 系统 进行 集成 的 不 同方 式 
卓 使 用 增 量 式 的 做 法 拆 分 单 块 代码 库 
日 通过 持续 集成 部 署 各 个 微服 务 RE 
日 审视 对 分 布 式 系统 进行 测试 和 监控 的 复杂 性 
日 管理 “用 户 一 服务 ”和 “服务 -服务 ”两 种 模式 下 的 安全 性 
日 理解 微服 务 架构 在 规模 化 方面 所 面临 的 问题 





Sam Newman 是 ThoughtWorks 公 司 的 技术 专家 、ThoughtWorks 内 部 系统 架 
构 师 ， 同 时 还 为 全 球 的 客户 提供 咨询 服务 。 他 在 开发 和 IT 运 维 方面 与 全 球 
多 个 领域 的 公司 有 过 合作 。 
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